# crawlLearn

**Repository Path**: aichengwenjing/crawl-learn

## Basic Information

- **Project Name**: crawlLearn
- **Description**: java 爬虫入门
- **Primary Language**: Java
- **License**: MulanPSL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 9
- **Created**: 2021-10-04
- **Last Updated**: 2022-01-21

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# crawlLearn

#### 介绍

java 爬虫入门

网络爬虫是做什么的?    
他的主要工作就是发送请求,获取响应,解析页面,处理数据(一方面从响应中查找出想要的数据,另一方面从响应中解析出新的URL路径),然后继续访问,继续解析,继续处理,如此循环执行,直到想要的数据处理完或出现异常.

这就是网络爬虫主要做的工作. 下面是爬虫工作流程图:
![爬虫工作流程图.png](爬虫工作流程图.png)

通过上面的流程图 能大概了解到 网络爬虫 干了哪些活 ,根据这些 也就能设计出一个简单的网络爬虫出来.

一个简单的爬虫 必需的功能:

- 1: 发送请求和获取响应 Requests类 如: Page page = Requests.request(url);
- 2: 解析页面元素 PageParserUtils类 如: Elements es = PageParserUtils.select(page, "a");
- 3: 存储符合需求的数据 Files类 如: Files.saveToLocal(page);
- 4: 处理URL路径 Links类 如: Links.addUnvisitedUrlQueue(seeds);

代码结构图:
![代码结构图.png](代码结构图.png)

程序运行结果图:
![程序运行结果.png](程序运行结果.png)

`

`