# Spider-1 **Repository Path**: linuxgit/Spider-1 ## Basic Information - **Project Name**: Spider-1 - **Description**: 爬虫实例:微博、b站、csdn、淘宝、今日头条、知乎、豆瓣、知乎APP、大众点评 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-01-30 - **Last Updated**: 2021-01-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Spider爬虫实例 ## 1. dianping——大众点评 * 大众点评获取所有排行榜店铺信息建表入库 * selenium登录获取cookie,使用cookie模拟登录 * 从库中获取所有店铺的id,拼接URL获取每个店铺所有评论信息并建表入库 * 添加断点续爬功能,程序中断后自动从断点开始爬取。 ## 2. zhihuCrawl——知乎web * 知乎模拟登录 * 验证码图片保存,输入识别的验证码 * 获取当日热门话题及其高赞回答 * 保存问题标题、链接,回答者的ID,内容及点赞数量,存储至MongoDB ## 3. 微信公众号爬虫 * 使用西刺代理构建代理ip池,检查代理ip连通性 * 使用可用的ip爬取搜狗微信公众号文章 * 将文章保存为.doc文档 ## 4. 豆瓣读书爬虫 * 读取豆瓣每个分类的书籍列表 * 获取每本书信息,存储到MySQL,爬取完毕后删除重复数据并重新排序 ## 5. csdn_scrapy——csdn网站 * 爬取csdn所有子标签文章,清洗后保存到MongoDB * 使用scrapy.redis组件进行分布式部署 ## 6. bilibili——b站 * 使用scrapy-splash爬取b站子标签热门video排行的大量信息 * 按标签建表保存至MongoDB ## 7. toutiao——今日头条web * 爬取今日头条子标签新闻 * webdriver获取加密参数 * ajax请求返回json数据解析,保存至MongoDB ## 8. taobao——淘宝web * 爬取淘宝各子标签,按销量排名商品信息,按分类保存至MongoDB * 通过pandas进行数据分析 * 将商品在各省分布、销量排行、地图分布等通过matplotlib绘图显示 ## 9. zhihu_app——知乎app * 爬取使用ssl-pinning技术的app * fiddler抓包获取api请求 * 模拟手机端请求数据,解析json存入mysql ## 10. Ajax_weibo——微博app * 输入要爬取的博主ID,获取ajax请求 * 解析json数据,爬取博主所有微博,保存至MySQL ## 11. scrapyd docker scrapyd 配置文件