# Webmagic爬虫实战 **Repository Path**: yuqiuling/webmagic ## Basic Information - **Project Name**: Webmagic爬虫实战 - **Description**: 使用webmagic爬虫框架进行爬虫操作 目前已实现:文字爬取、图片爬取、顶点小说数据爬取&小说下载、中药大全数据爬取 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2020-09-12 - **Last Updated**: 2020-12-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 基于WebMagic的爬虫案例 ### 介绍: 本系统采用WebMagic作为爬虫框架,整合了Spring Boot + Mybatis Plus存储数据,实现案例有“顶点小说网小说信息爬取及小说下载”、“慕课网网络课信息爬取”、“美桌壁纸图片爬取” ### 功能: ​ 顶点小说网小说信息爬取 ​ 小说下载功能 ​ 中药大全网中药数据爬取 ### 运行环境: jdk1.8 maven3.6.x mysql5.5.6 ### 运行步骤: #### 1、安装无代码侵入Swagger2依赖包vip-swagger到本地仓库 代码和教程具体参照:https://gitee.com/Analyzer/swagger2_package #### 2、导入数据库到本地 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0831/172337_8b401ef0_1676717.png "image-20200831165527785.png") #### 3、修改配置 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0831/172354_83cd6c8f_1676717.png "image-20200831165803275.png") ![输入图片说明](https://images.gitee.com/uploads/images/2020/0831/172918_4b0b890f_1676717.png "image-20200831171346076.png") #### 4、修改起始页:起始页用于开始爬取时会从起始页向后开始爬取 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0831/172955_718327af_1676717.png "image-20200831165827314.png") #### 5、测试慕课网网课和美桌壁纸数据爬取 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0831/172429_f9dc815d_1676717.png "image-20200831170538018.png") #### 6、爬取后存储数据到数据库:小说爬虫 + 中药爬虫测试 运行项目后,浏览器访问:http://localhost:9500/swagger-ui.html 点击try it out后端开始自动爬取小说和中药数据,并存入数据库 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0831/172453_0a4e5d15_1676717.png "image-20200831170859821.png") 爬取结果如下: ![输入图片说明](https://images.gitee.com/uploads/images/2020/0831/172514_e9dc843b_1676717.png "image-20200831171008900.png") #### 7、小说下载测试 复制一个小说的ID,调用如下接口,下载的文件将存于配置常量中的下载路径: ![输入图片说明](https://images.gitee.com/uploads/images/2020/0831/172530_e5abb85b_1676717.png "image-20200831171145882.png") ### 项目结构: ![输入图片说明](https://images.gitee.com/uploads/images/2020/0831/172708_ad7d2420_1676717.png "image-20200831171823450.png") ### 总结: WebMagic的学习可以参考本案例和官方文档 http://webmagic.io/docs/zh/ 进行进一步学习