分布式爬虫系统,简单使用,高级配置。可扩展,减轻开发量,能docker化,适应各种急切需求核心框架:WebMagic, Spring Boot ,MongoDB, ActiveMQ ,Spring + Quartz,Spring Jpa , Druid,Redis, Ehcache ,SLF4J、Log4j2, Bootstrap + Jquery 等,不详细列举了
通用的yii2后台,基于Yii2的advanced应用程序模板,整合RBAC、Menu、Config、Migration多语言、RESTfull等等...
牛咖-neocrawler nodejs 的爬虫系统。 特点: 支持web界面方式的摘取规则配置(css selector & regex); 包含无界面的浏览器引擎(phantomjs),支持js产生内容的抓取; 用http代理路由的方式防止抓取并发量过大的情况下被对方屏蔽; nodejs none-block 异步环境下的抓取性能比较高; 中央调度器负责网址的调度(同一时间片内一定数量的抓取任务中根据网站的权重来决定派发任务量; 支持多种抓取实例并存,定制摘取引擎和存储方式。
最近更新: 8年前来自互联网(青竹开源团队)的开源验证码项目。该项目拥有实现统一图形验证码生成接口的验证码实体类,项目只需调用各种验证码实例即可轻松获得验证的能力。 更多关于项目介绍,请查看Readme文件。 更多关于青竹开源团队,请查看https://team.oschina.net/team_profile/GreenBamboo