以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台,一个无需写代码的爬虫平台。
插件丰富
redis、mongodb、oss、ocr、IP代理池、selenium等插件
高度灵活
扩展方便,规则定制灵活
特性
支持Xpath/JsonPath/css选择器/正则提取/混搭提取
支持JSON/XML/二进制格式
支持多数据源、SQL select/selectInt/selectOne/insert/update/delete
支持爬取JS动态渲染(或ajax)的页面
支持代理
支持自动保存至数据库/文件
常用字符串、日期、文件、加解密等函数
支持插件扩展(自定义执行器,自定义方法)
任务监控,任务日志
支持HTTP接口
支持Cookie自动管理
支持自定义函数