# Job_Craw **Repository Path**: FormatFa/Job_Craw ## Basic Information - **Project Name**: Job_Craw - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-03-26 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 计算机人才招聘大数据可视化系统 - 在线预览地址 http://47.105.180.125:4010/ind2/main - 项目连接 可视化系统: https://gitee.com/FormatFa/Job_Visual Spark数据清洗: https://gitee.com/FormatFa/Job_Clean Scrapy爬虫: https://gitee.com/FormatFa/Job_Craw 设置控制台输出日志等级 ```python LOG_LEVEL="xxx" ``` ### 测试爬取命令 ``` scrapy crawl n1 ``` ### 输出字段 ``` cate1,cate2,city,cname,cnum,ctrade,ctype,detail,edu,exp,name,num,pubtime,salary,url,welfare "cate1","cate2","city","cname","cnum","ctrade","ctype","detail","edu","exp","name","num","pubtime","salary","url","welfare" ``` ## windows运行爬虫 - 测试爬虫代码(爬取部分) `scrapy crawl n1 -a cate_data=test_data.json ` - 爬取所有计算机行业的 - `scrapy crawl n1 --loglevel=WARN` ## 命令行启动 在shell脚本中运行时,为了控制输出的目录,添加命令行参数,scrapy里通过-a添加的键值对会传到Spider的构造函数里。 添加的运行命令行参数: - savepath 爬取保存的路径 - cate_data 分类数据的名字 --loglevel=WARN 设置日志等级 服务器脚本代码: scrapy crawl n1 -a savepath=${CRAW_DATA}/${DATE_NAME}.csv -a cate_data=data.json --loglevel=WARN ## 分类数据的JSON 原始.json 保留三个级别类的所有分类id all_cate.json 删除了计算机类中的电子商务,运营大类的。和数据-其他 这几个类,因为2000也太多,爬取计算机行业时用 test_data.json 只有一个分类,测试代码用