# java-spider **Repository Path**: linch-code/java-spider ## Basic Information - **Project Name**: java-spider - **Description**: 采用HttpClient连接池来管理请求,使用多线程并发爬取小说,使用缓冲流将爬取的章节写入到txt文件中 - **Primary Language**: Java - **License**: GPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2021-03-19 - **Last Updated**: 2021-03-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # java-spider #### 介绍 java-spider是一个用来爬取静态小说网站的爬虫。java-spider使用HttpClient发送请求,使用正则表达式解析获取到的响应实体,使用连接池管理建立的连接。在拿到网站主页的小说列表后,为开启一个线程来爬取章节内容。使用MyBatis+MySQL完成数据持久化 #### 技术要点 ##### 主要Java类说明 - HttpClientsUtils.java:工具类,用于创建连接池管理器,发送请求,获取响应实体 - ParseHTML.java:使用正则表达式解析HTML页面,并封装成Book和Chapter对象 - SpiderRobot.java:爬虫主体逻辑代码,为每一本小说开启了一个线程 ##### MyBatis+MySQL - book表:保存爬取小说信息 - chapter表:保存爬取的所有章节 #### 使用说明 下载运行即可