# Spiderman2 **Repository Path**: multiarrow/Spiderman2 ## Basic Information - **Project Name**: Spiderman2 - **Description**: 二代蜘蛛侠,此版本完全重新开发,比上一代更加强大(性能,易用,架构,分布式,简洁,成熟) - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 770 - **Created**: 2016-02-26 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #Spiderman2 ``` 简单的说,这是一个网页爬虫工具,专门对网页内容进行抓取和解析 ``` - 性能 - 架构简洁 - 易用 - 分布式 - 插件 - UI 要求: - Java8或以上 快速开始 ``` Conf conf = new XMLConfBuilder(new File("src/main/resources/baidu-search.xml"))//XML配置构建器 .addSeed("http://www.baidu.com/s?wd="+K.urlEncode("\"蜘蛛侠\""))//种子 .addTarget(new Target("网页内容"){//目标 public void configRules(Rules rules) { rules.setPriority(1).addNotContainsRule("baidu");//目标URL规则 } public void configModel(Model model) { model.addParser(new TextParser());// 目标解析规则,这里直接用通用的正文抽取器解析 } }) .set("downloader.threadSize", 20)//下载线程数量 .set("parser.threadSize", 10)//解析线程数量 .set("parsedLimit", 10)//解析网页数量上限,达到后将会自动结束行动 .build(); new Spiderman(conf).go();//别忘记看控制台信息哦,结束之后会有统计信息的,查看关键词"[结束]"(去掉双引号来查找) ``` baidu-search.xml ```