# SpiderV **Repository Path**: husttom/SpiderV ## Basic Information - **Project Name**: SpiderV - **Description**: java编写的带有web管理后台的抓取程序,自动生成搜索URL,简单实现数据抽取即可,支持多机,任务定时自动运行等功能,提供各种扩展点,适应各种情况 - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 21 - **Created**: 2015-03-08 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #SpiderV 简介: 应用用来抓取垂直网站数据,系统经过简单配置即可完成典型的“条件选择”--》“搜索”--》“列表数据”这总结构的数据抓取,抽取部分通过JSOUP自己写一个实现即可。实现类要求放到(com/yzq/os/spider/v/service/spider/impl) 系统支持集群模式,所有服务器代码统一,可自动化同步管理,通过数据库中的配置标识唯一主机,主机负责一些日常初始化及清理动作。每台服务器可以分别设定自动抓取任务。 系统根据搜索参数配置自动生成搜索URL组合,并可以通过一次运行后,将有结果数据的搜索URL备份,下次从备份URL中取出运行,减少不必要的搜索条件提交; 手动运行一次如果正常后可以设定定时任务,每天定时运行; 系统采用maven管理,应用采用UTF-8编码。 软件要求: linux jdk 1.6 tomcat6+ mysql 5.5+ (InnoDB引擎,数据库编码UTF-8) 安装部署及运行: 1、首先下载项目源代码; 2、根据自己情况修改properties文件; 3、运行maven打包war; 4、部署到tomcat webapps目录下 5、创建mysql账号,并执行/scripts/create_database.sql 和/scripts/init.sql(需要根据自身情况修改) 6、分析要抓取的网站。可以通过WebSiteCrawlTest类来进行(收集配置数据) 7、配置搜索引擎、搜索引擎参数、列表页面配置 8、可选择实现数据抽取类,参考com.yzq.os.spider.v.service.spider.impl.DemoCrawlTask 9、初始化搜索URL参数http://localhost:8080/SpiderVertical/admin/createurl/form 10、执行抓取http://localhost:8080/SpiderVertical/admin/spider/form 11、查看运行进度http://localhost:8080/SpiderVertical/admin/statis 12、运行完查看数据结果http://localhost:8080/SpiderVertical/admin/spider/view_tables 注意:使用系统请遵守Robots协议 有问题请发送mail到:xingyu_yzq@163.com