# Java蜘蛛爬虫
**Repository Path**: hoppin/java-spider-crawler
## Basic Information
- **Project Name**: Java蜘蛛爬虫
- **Description**: 可以做一个自己的百度!!!在线访问http://150.158.28.40:8806/index.html
- **Primary Language**: Java
- **License**: MIT
- **Default Branch**: master
- **Homepage**: http://150.158.28.40:8806/index.html
- **GVP Project**: No
## Statistics
- **Stars**: 5
- **Forks**: 1
- **Created**: 2022-07-23
- **Last Updated**: 2025-11-25
## Categories & Tags
**Categories**: Uncategorized
**Tags**: Java
## README
Java爬虫
## 🎤介绍
本项目是java版的爬虫,集成了webMagic、you-get。最大的亮点是编写了一个蜘蛛爬虫,配合lucene,你可以自己实现一个类似百度搜索的功能。
> 👉 [演示网站点我](http://150.158.28.40:8806/index.html)
>
> 👉 [文档点我](http://150.158.28.40:8806/documentation.html)
## 💡灵感
很久之前我的短视频网站就有使用爬虫,可以将bilibili的视频直接爬到我的网站,当时使用的python,搞了个歪招集成在Java项目里。之后我的博客项目也使用了爬虫,在写博客的页面那里。 初衷是方便我把csdn和博客园的博客导入到我的博客里,就使用
[webmagic](http://webmagic.io/)
框架写了三个爬虫,分别针对csdn、博客园、微信公众号。最后就想把这些爬虫集合在一起,就成了现在这样。
## 📗文档
- [✖️开始使用✖️](http://150.158.28.40:8806/documentation.html)
- [1️⃣环境安装](http://150.158.28.40:8806/documentation.html#installation)
- [2️⃣项目配置](http://150.158.28.40:8806/documentation.html#quick-start)
- [3️⃣内置页面](http://150.158.28.40:8806/documentation.html#layout-theme)
- [🐛爬虫](http://150.158.28.40:8806/documentation.html#pcn)
- [🐞爬虫的原生实现](http://150.158.28.40:8806/documentation.html#pcn)
- [❄️蜘蛛](http://150.158.28.40:8806/documentation.html#spider)
- [🐙webMagic](http://150.158.28.40:8806/documentation.html#webmagic)
- [ 👾 you-get](http://150.158.28.40:8806/documentation.html#youget)
- [😜其他](http://150.158.28.40:8806/documentation.html#changelog)
- [📗日志](http://150.158.28.40:8806/documentation.html#changelog)
- [🌹鸣谢](http://150.158.28.40:8806/documentation.html#credits)
## ✏️我的博客
- [✨自己写的博客网站✨](http://1.15.232.156/)
## 📷截图
#### 💦类似于百度搜索的实现,案例已经抓取了足够的链接供测试

#### 🌳特性

#### ▶️CSDN爬虫,可将指定的CSDN博客链接下的博客爬取出来内容

#### ㊙️东方project

#### 🆙bilibili 亁杯🍺

#### 📁爬虫配置

## 🎬反馈
> 🌷你可以发起 Issue 或者 [在爬虫网站反馈](http://150.158.28.40:8806/contact.html)
## 😘感谢
[webMagic](http://webmagic.io/)
## 📄License
MIT