# JobDataCrawling **Repository Path**: kfu_peak_cloud/job-data-crawling ## Basic Information - **Project Name**: JobDataCrawling - **Description**: job-data-crawling 是一个专注于招聘数据爬取的工具仓库,旨在从主流招聘平台拉勾,高效获取岗位信息并上传到hdfs,为后续数据分析、挖掘提供原始数据支持。 - **Primary Language**: Java - **License**: MIT - **Default Branch**: main - **Homepage**: https://dcyyd.github.io - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-03-26 - **Last Updated**: 2025-03-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: Crawling, Java, hadoop ## README # 拉勾网大数据职位信息爬虫 ## 一、项目概述 本项目是一个基于 Java 的拉勾网大数据职位信息爬虫,主要用于爬取拉勾网的大数据职位信息,并将数据存储到 HDFS 中。项目使用了 Apache HttpClient 进行 HTTP 请求,Hadoop 进行 HDFS 文件操作,以及 Log4j 进行日志记录。 ## 二、开发环境 | 环境项 | 配置内容 | | -------------- | ----------------------------- | | 操作系统 | `Windows 10 and CentOS7.5` | | JDK 版本 | `1.8` | | IDE | `IntelliJ IDEA 2023.1` | | Hadoop 版本 | `3.1.3` | | Maven 版本 | `3.6.3` | ## 三、项目结构 ```plaintext jobcase-reptile ├── src │ └── main │ └── java │ └── io.github.dcyyd.reptile │ ├── HttpClientData.java # 主程序入口 │ ├── HttpClientHdfsUtils.java # HDFS 操作工具类 │ ├── HttpClientResp.java # HTTP 响应封装类 │ └── HttpClientUtils.java # HTTP 请求工具类 ├── resources │ └── log4j.properties # 日志配置文件 └── pom.xml # Maven 依赖配置 ``` ## 四、依赖说明 - **Apache HttpClient**:用于发送 HTTP 请求(GET/POST)。 - **Hadoop Common/Client**:提供 HDFS 文件操作接口。 - **Log4j**:日志记录框架。 ## 五、项目配置与运行 ### 5.1 在 IDEA 中导入 Maven 项目 1. 打开 IDEA,选择 `File → Open`,选择包含 `pom.xml` 的项目根目录 --> `jobcase-reptile`。 2. 自动加载依赖:IDEA 会自动识别 Maven 项目并下载依赖(需联网),若依赖下载失败,手动执行 `mvn clean install`。 3. 配置 JDK:把 `Project Structure → Project Settings → Project` 中 JDK 版本设为 1.8。 ### 5.2 运行项目 在 IDEA 中运行 `HttpClientData.java` 作为主程序入口,程序会发起 HTTP 请求获取拉勾网的大数据职位信息,并将数据存储到 HDFS 中。 ## 六、注意事项 - 确保 Hadoop 集群正常运行,并且可以通过指定的 URL 访问 HDFS。 - 操作 HDFS 的用户为 `root`,请确保该用户具有相应的权限。 - 程序运行过程中会根据系统当前时间在 HDFS 上创建文件并写入数据,文件路径为 `/SESSECS/yyyyMMdd/`。