# next-crawler **Repository Path**: bitschen/next-crawler ## Basic Information - **Project Name**: next-crawler - **Description**: NextCrawler 是一个Kotlin编写的爬虫框架 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2018-11-16 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Next Gecko NextGecko是一个使用Kotlin语言写就的Java爬虫框架,架构上参考Scrapy并进行大幅度改进。 NextGecko实现了如下目标: 1. 核心组件灵活定制:NextGecko的核心组件都可以自定义实现; 1. 组件配置化:每个组件均可通过配置文件来设置; 1. 单机高性能:默认调度器实现中,使用高性能异步事件队列来调度爬虫请求; 1. *分布式:通过定制调度器组件,实现分布式多爬虫协同处理; 1. *动态配置:动态更新配置,NextGecko会暂停,重新加载配置后,恢复处理; 1. *极好的用户体验UI:我们提供一个极好的用户体验UI来给用户操作控制NextGecko; 1. *智能AI接入:验证码识别、拟人爬虫出口等; 1. *蜜罐绕行:自动检测并忽略隐藏的连接地址; 在开发者体验方面,NextGecko也提供比较友好的特性: 1. 基于服务端响应速度自动限速; 1. 默认支持Robot.txt协议并优先处理,尊重目标网站; 1. 支持Sitemap并优先处理; 1. 自动探测网站编码方式,应对老旧网站; 1. 自动探测分页,并优先处理分页URL; 1. 提供爬行网络图表,实时爬行一目了然; ## Scheduler - 调度器 与其它框架不同,NextGecko的调度器是唯一控制爬虫运行 ## Fetcher - 爬虫抓取器 ## FetcherMiddleware - 爬虫抓取器中间件 ## Driver - 用户驱动 ## DriverMiddleware - 用户驱动中间件 ## DataPipeline - 数据处理管道