# SpiderV

**Repository Path**: husttom/SpiderV

## Basic Information

- **Project Name**: SpiderV
- **Description**: java编写的带有web管理后台的抓取程序，自动生成搜索URL，简单实现数据抽取即可，支持多机，任务定时自动运行等功能，提供各种扩展点，适应各种情况
- **Primary Language**: Unknown
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 21
- **Created**: 2015-03-08
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

#SpiderV
简介：
    应用用来抓取垂直网站数据，系统经过简单配置即可完成典型的“条件选择”--》“搜索”--》“列表数据”这总结构的数据抓取，抽取部分通过JSOUP自己写一个实现即可。实现类要求放到（com/yzq/os/spider/v/service/spider/impl）
	系统支持集群模式，所有服务器代码统一，可自动化同步管理，通过数据库中的配置标识唯一主机，主机负责一些日常初始化及清理动作。每台服务器可以分别设定自动抓取任务。
	系统根据搜索参数配置自动生成搜索URL组合，并可以通过一次运行后，将有结果数据的搜索URL备份，下次从备份URL中取出运行，减少不必要的搜索条件提交；
	手动运行一次如果正常后可以设定定时任务，每天定时运行；
	系统采用maven管理，应用采用UTF-8编码。

软件要求：
	linux jdk 1.6 tomcat6+ mysql 5.5+ （InnoDB引擎，数据库编码UTF-8） 

安装部署及运行：
	1、首先下载项目源代码；
	2、根据自己情况修改properties文件；
	3、运行maven打包war；
	4、部署到tomcat webapps目录下
	5、创建mysql账号，并执行/scripts/create_database.sql 和/scripts/init.sql（需要根据自身情况修改）
	6、分析要抓取的网站。可以通过WebSiteCrawlTest类来进行（收集配置数据）
	7、配置搜索引擎、搜索引擎参数、列表页面配置
	8、可选择实现数据抽取类，参考com.yzq.os.spider.v.service.spider.impl.DemoCrawlTask
	9、初始化搜索URL参数http://localhost:8080/SpiderVertical/admin/createurl/form
	10、执行抓取http://localhost:8080/SpiderVertical/admin/spider/form
	11、查看运行进度http://localhost:8080/SpiderVertical/admin/statis
	12、运行完查看数据结果http://localhost:8080/SpiderVertical/admin/spider/view_tables
	
注意：使用系统请遵守Robots协议
有问题请发送mail到:xingyu_yzq@163.com