# Java蜘蛛爬虫 **Repository Path**: hoppin/java-spider-crawler ## Basic Information - **Project Name**: Java蜘蛛爬虫 - **Description**: 可以做一个自己的百度!!!在线访问http://150.158.28.40:8806/index.html - **Primary Language**: Java - **License**: MIT - **Default Branch**: master - **Homepage**: http://150.158.28.40:8806/index.html - **GVP Project**: No ## Statistics - **Stars**: 5 - **Forks**: 1 - **Created**: 2022-07-23 - **Last Updated**: 2025-11-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: Java ## README

Java爬虫


## 🎤介绍 本项目是java版的爬虫,集成了webMagic、you-get。最大的亮点是编写了一个蜘蛛爬虫,配合lucene,你可以自己实现一个类似百度搜索的功能。 > 👉 [演示网站点我](http://150.158.28.40:8806/index.html) >
> 👉 [文档点我](http://150.158.28.40:8806/documentation.html) ## 💡灵感 很久之前我的短视频网站就有使用爬虫,可以将bilibili的视频直接爬到我的网站,当时使用的python,搞了个歪招集成在Java项目里。之后我的博客项目也使用了爬虫,在写博客的页面那里。 初衷是方便我把csdn和博客园的博客导入到我的博客里,就使用 [webmagic](http://webmagic.io/) 框架写了三个爬虫,分别针对csdn、博客园、微信公众号。最后就想把这些爬虫集合在一起,就成了现在这样。 ## 📗文档 - [✖️开始使用✖️](http://150.158.28.40:8806/documentation.html) - [1️⃣环境安装](http://150.158.28.40:8806/documentation.html#installation) - [2️⃣项目配置](http://150.158.28.40:8806/documentation.html#quick-start) - [3️⃣内置页面](http://150.158.28.40:8806/documentation.html#layout-theme) - [🐛爬虫](http://150.158.28.40:8806/documentation.html#pcn) - [🐞爬虫的原生实现](http://150.158.28.40:8806/documentation.html#pcn) - [❄️蜘蛛](http://150.158.28.40:8806/documentation.html#spider) - [🐙webMagic](http://150.158.28.40:8806/documentation.html#webmagic) - [ 👾 you-get](http://150.158.28.40:8806/documentation.html#youget) - [😜其他](http://150.158.28.40:8806/documentation.html#changelog) - [📗日志](http://150.158.28.40:8806/documentation.html#changelog) - [🌹鸣谢](http://150.158.28.40:8806/documentation.html#credits) ## ✏️我的博客 - [✨自己写的博客网站✨](http://1.15.232.156/) ## 📷截图 #### 💦类似于百度搜索的实现,案例已经抓取了足够的链接供测试 ![快来试试吧](http://hoppinzq.com/image/chrome_mvLbHNUVMT.png) #### 🌳特性 ![快来试试吧](http://hoppinzq.com/image/chrome_viVTHLcSZR.png) #### ▶️CSDN爬虫,可将指定的CSDN博客链接下的博客爬取出来内容 ![快来试试吧](http://hoppinzq.com/image/aeEYrSor0w.png) #### ㊙️东方project ![快来试试吧](http://hoppinzq.com/image/itX8kYGQe5.png) #### 🆙bilibili 亁杯🍺 ![快来试试吧](http://hoppinzq.com/image/chrome_o5WbYwUBlU.png) #### 📁爬虫配置 ![快来试试吧](http://hoppinzq.com/image/chrome_2u7Y0fMsWq.png) ## 🎬反馈 > 🌷你可以发起 Issue 或者 [在爬虫网站反馈](http://150.158.28.40:8806/contact.html) ## 😘感谢 [webMagic](http://webmagic.io/) ## 📄License MIT