# tianyancha **Repository Path**: gitfengling/tianyancha ## Basic Information - **Project Name**: tianyancha - **Description**: 爬取企业信息-企业信用信息查询系统-天眼查爬虫 - **Primary Language**: Python - **License**: EPL-1.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 15 - **Created**: 2025-05-20 - **Last Updated**: 2025-05-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # tianyancha 天眼查爬取企业信息-企业信用信息查询系统-天眼查爬虫 ------ 运行main_all.py即可爬取90%的天眼查公司 运行main_top100.py只爬取96个行业的前100家公司 运行main_search.py根据你的公司名搜索进行爬取指定公司 注意: 1,代理IP请自费或自力更生建免费IP池 2,本项目自带云数据库,可直接使用,用你的电脑直接加入爬虫计划,我愿称之为 “分布式”爬虫 3,如果想用自己的数据库,配置信息在 config.py里 修改为你的数据库和蘑菇代理appkey即可 4,此程序随时可停,随时可继续从上次停止的地方开始,不会重复爬取 5, 如果有其他问题,或者想要数据,加Q群: 231436610 **步骤1**: 查看data文件夹,看数据是否满足你的数据分析要求。 - **公司信息.xlsx** 超过2万条的企业信息 - **行业TOP100.sql** 各个行业Top100的企业信息 大概9000条记录。 **步骤2**: 如果数据不满足你的要求,你想操练一下,花点钱爽爽。 1. 安装好mysql,建好表,sql文件夹下有建表脚本。 2. 买好蘑菇代理或者其他代理池的代理 3. 修改config.py 里面的配置,与数据库配置以及蘑菇代理API 的appkey,还有爬虫容错重试次数 4. 根据你的要求运行main_all.py和main_top100.py 5. 跑test.main 之前需要跑一次 find_industry.py这个脚本:把96个行业*5页的行业记录初始化好。 6. 如果有错误,请一步步调试,get_html.py 和find_info.py底下有注释掉的调试代码,按需修改运行 7. 能正常跑的话,请你动手点个star哈,祝你爬虫监狱之旅快乐 (๑•̀ㅂ•́)و✧