# Spiderman2 **Repository Path**: multiarrow/Spiderman2 ## Basic Information - **Project Name**: Spiderman2 - **Description**: 二代蜘蛛侠，此版本完全重新开发，比上一代更加强大（性能，易用，架构，分布式，简洁，成熟） - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 771 - **Created**: 2016-02-26 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #Spiderman2 ``` 简单的说，这是一个网页爬虫工具，专门对网页内容进行抓取和解析 ``` - 性能 - 架构简洁 - 易用 - 分布式 - 插件 - UI 要求： - Java8或以上快速开始 ``` Conf conf = new XMLConfBuilder(new File("src/main/resources/baidu-search.xml"))//XML配置构建器 .addSeed("http://www.baidu.com/s?wd="+K.urlEncode("\"蜘蛛侠\""))//种子 .addTarget(new Target("网页内容"){//目标 public void configRules(Rules rules) { rules.setPriority(1).addNotContainsRule("baidu");//目标URL规则 } public void configModel(Model model) { model.addParser(new TextParser());// 目标解析规则，这里直接用通用的正文抽取器解析 } }) .set("downloader.threadSize", 20)//下载线程数量 .set("parser.threadSize", 10)//解析线程数量 .set("parsedLimit", 10)//解析网页数量上限，达到后将会自动结束行动 .build(); new Spiderman(conf).go();//别忘记看控制台信息哦，结束之后会有统计信息的,查看关键词"[结束]"(去掉双引号来查找) ``` baidu-search.xml ```