# Job_Craw

**Repository Path**: FormatFa/Job_Craw

## Basic Information

- **Project Name**: Job_Craw
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-03-26
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 计算机人才招聘大数据可视化系统

- 在线预览地址

http://47.105.180.125:4010/ind2/main

- 项目连接

可视化系统: https://gitee.com/FormatFa/Job_Visual

Spark数据清洗: https://gitee.com/FormatFa/Job_Clean

Scrapy爬虫: https://gitee.com/FormatFa/Job_Craw

设置控制台输出日志等级

```python
LOG_LEVEL="xxx"
```

### 测试爬取命令
```
scrapy crawl n1
```
### 输出字段
```
cate1,cate2,city,cname,cnum,ctrade,ctype,detail,edu,exp,name,num,pubtime,salary,url,welfare

"cate1","cate2","city","cname","cnum","ctrade","ctype","detail","edu","exp","name","num","pubtime","salary","url","welfare"
```

## windows运行爬虫

- 测试爬虫代码(爬取部分)
`scrapy crawl n1 -a cate_data=test_data.json `
- 爬取所有计算机行业的
- `scrapy crawl n1 --loglevel=WARN`

## 命令行启动

在shell脚本中运行时，为了控制输出的目录，添加命令行参数，scrapy里通过-a添加的键值对会传到Spider的构造函数里。

添加的运行命令行参数:
- savepath    爬取保存的路径
- cate_data   分类数据的名字

--loglevel=WARN 设置日志等级

服务器脚本代码: 
scrapy crawl n1 -a savepath=${CRAW_DATA}/${DATE_NAME}.csv  -a   cate_data=data.json --loglevel=WARN


## 分类数据的JSON
原始.json 保留三个级别类的所有分类id
all_cate.json 删除了计算机类中的电子商务，运营大类的。和数据-其他 这几个类,因为2000也太多,爬取计算机行业时用
test_data.json 只有一个分类，测试代码用