# JobDataCrawling

**Repository Path**: kfu_peak_cloud/job-data-crawling

## Basic Information

- **Project Name**: JobDataCrawling
- **Description**: job-data-crawling 是一个专注于招聘数据爬取的工具仓库，旨在从主流招聘平台拉勾，高效获取岗位信息并上传到hdfs，为后续数据分析、挖掘提供原始数据支持。
- **Primary Language**: Java
- **License**: MIT
- **Default Branch**: main
- **Homepage**: https://dcyyd.github.io
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-03-26
- **Last Updated**: 2025-03-26

## Categories & Tags

**Categories**: Uncategorized

**Tags**: Crawling, Java, hadoop

## README

# 拉勾网大数据职位信息爬虫

## 一、项目概述
本项目是一个基于 Java 的拉勾网大数据职位信息爬虫，主要用于爬取拉勾网的大数据职位信息，并将数据存储到 HDFS 中。项目使用了 Apache HttpClient 进行 HTTP 请求，Hadoop 进行 HDFS 文件操作，以及 Log4j 进行日志记录。

## 二、开发环境
| 环境项         | 配置内容                      |
| -------------- | ----------------------------- |
| 操作系统       | `Windows 10 and CentOS7.5`     |
| JDK 版本       | `1.8`                         |
| IDE            | `IntelliJ IDEA 2023.1`        |
| Hadoop 版本    | `3.1.3`                       |
| Maven 版本     | `3.6.3`                       |

## 三、项目结构
```plaintext
jobcase-reptile  
├── src  
│   └── main  
│       └── java  
│           └── io.github.dcyyd.reptile  
│               ├── HttpClientData.java       # 主程序入口  
│               ├── HttpClientHdfsUtils.java  # HDFS 操作工具类  
│               ├── HttpClientResp.java       # HTTP 响应封装类  
│               └── HttpClientUtils.java      # HTTP 请求工具类  
├── resources  
│   └── log4j.properties                     # 日志配置文件  
└── pom.xml                                  # Maven 依赖配置  
```

## 四、依赖说明
- **Apache HttpClient**：用于发送 HTTP 请求（GET/POST）。
- **Hadoop Common/Client**：提供 HDFS 文件操作接口。
- **Log4j**：日志记录框架。

## 五、项目配置与运行
### 5.1 在 IDEA 中导入 Maven 项目
1. 打开 IDEA，选择 `File → Open`，选择包含 `pom.xml` 的项目根目录 --> `jobcase-reptile`。
2. 自动加载依赖：IDEA 会自动识别 Maven 项目并下载依赖（需联网），若依赖下载失败，手动执行 `mvn clean install`。
3. 配置 JDK：把 `Project Structure → Project Settings → Project` 中 JDK 版本设为 1.8。

### 5.2 运行项目
在 IDEA 中运行 `HttpClientData.java` 作为主程序入口，程序会发起 HTTP 请求获取拉勾网的大数据职位信息，并将数据存储到 HDFS 中。

## 六、注意事项
- 确保 Hadoop 集群正常运行，并且可以通过指定的 URL 访问 HDFS。
- 操作 HDFS 的用户为 `root`，请确保该用户具有相应的权限。
- 程序运行过程中会根据系统当前时间在 HDFS 上创建文件并写入数据，文件路径为 `/SESSECS/yyyyMMdd/`。