# crawler **Repository Path**: ctcncom/crawler ## Basic Information - **Project Name**: crawler - **Description**: AreaCrawler 2021全国省市区街道社区五级SQL文件以及爬取代码 HolidayService 2021全年工作日判断,法定节假日判断 - **Primary Language**: Java - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 33 - **Created**: 2023-02-17 - **Last Updated**: 2024-10-28 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## crawler爬虫项目 主要记录爬虫相关代码和文档数据 ### AreaCrawler 2021全国省市区街道社区五级SQL文件以及爬取代码 ### HolidayService 2021全年工作日判断,法定节假日判断 sys_area2 这个是2022年的省市区的sql sys_area为2021年的全国省市区街道社区五级sql 国家统计局网站 新地址 http://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2022/index.html 1、运行前置条件 jdk8 ,数据库mysql 创建标具体看项目配置文件 2、如果只要省市区自己把街道代码注释掉就可以了 3、本次的例子只获取省市区(县),如果想要街道自己打开注释 ![输入图片说明](image.png) 注释掉的代码 ![输入图片说明](image_%E6%B3%A8%E9%87%8A.png) 4、注意看官网编码格式 在浏览器控制台输入document.charset ![输入图片说明](image_charset.png) 代码要与官网编码一样才可以 //获取到网页数据,采用GBK编码的方式,避免乱码存在;因抓取的数据是2021年,需要转码成UTF-8才可以; document = Jsoup.parse(inputStream, "UTF-8", sourceHtml); 5、如果地址变更了怎么获取统计局的最新页面 打开“国家统计局官网”,在搜索栏输入“统计用区划和城乡划分代码”,点击检索。 ![输入图片说明](%E5%9C%B0%E5%8C%BA%E7%BC%96%E7%A0%81%E4%BD%8D%E7%BD%AE.png)