# ECommerceCrawlers
**Repository Path**: git654321/ECommerceCrawlers
## Basic Information
- **Project Name**: ECommerceCrawlers
- **Description**: 实战多种网站、电商数据爬虫。包含:淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目:
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: http://47.100.199.103:8000/
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 2002
- **Created**: 2019-11-18
- **Last Updated**: 2020-12-17
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
[]() []() []()  []() []() []()
## ECommerceCrawlers
多种电商商品数据🐍爬虫,整理收集爬虫练习。每个项目都是成员写的。通过实战项目练习解决一般爬虫中遇到的问题。
通过每个项目的readme,了解爬取过程分析。
对于精通爬虫的pyer,这将是一个很好的例子减少重复收集轮子的过程。项目经常更新维护,确保即下即用,减少爬取的时间。
对于小白通过✍️实战项目,了解爬虫的从无到有。爬虫知识构建可以移步[项目wiki](https://gitee.com/AJay13/ECommerceCrawlers/wiki/%E7%88%AC%E8%99%AB%E5%88%B0%E5%BA%95%E8%BF%9D%E6%B3%95%E5%90%97%3F)。爬虫可能是一件非常复杂、技术门槛很高的事情,但掌握正确的方法,在短时间内做到能够爬取主流网站的数据,其实非常容易实现,但建议从一开始就要有一个具体的目标。
在目标的驱动下,你的学习才会更加精准和高效。那些所有你认为必须的前置知识,都是可以在完成目标的过程中学到的😁😁😁。
欢迎大家对本项目的不足加以指正,⭕️Issues或者🔔Pr
>在之前上传的大文件贯穿了3/4的commits,发现每次clone达到100M,这与我们最初的想法违背,我们不能很有效的删除每一个文件(太懒),将重新进行初始化仓库的commit。并在今后不上传爬虫数据,优化仓库结构。
## About
- 码云仓库链接:[AJay13/ECommerceCrawlers](https://gitee.com/AJay13/ECommerceCrawlers)
- Github仓库链接:[DropsDevopsOrg/ECommerceCrawlers](https://github.com/DropsDevopsOrg/ECommerceCrawlers)
- 项目展示平台链接:[http://wechat.doonsec.com](http://47.100.199.103:8000)
## Income
几乎80%的项目都是帮客户写的爬虫,在添加到仓库之前已经经过客户同意可开源原则。
收益表
|项目|收益|备注|
|:--|--:|:-:|
|DianpingCrawler|200|
|TaobaoCrawler|2000|
|SohuNewCrawler|2500|
|WechatCrawler|未定|暂无具体收益|
|某省药监局|80|
|fofa|700|
|baidu|1000|
|蜘蛛泛目录|1000|
|更多……|……|另部分程序未得到客户开源认可|
## CrawlerDemo
- [x] [DianpingCrawler](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/DianpingCrawler):大众点评爬取
- [x] [East_money](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/East_money):scrapy爬取东方财富网
- [x] [📛TaobaoCrawler](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/TaobaoCrawler):淘宝商品爬取
- [x] [📛ZhaopinCrawler](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/ZhaopinCrawler):各大招聘网站爬取
- [x] [ShicimingjuCrawleAndDisplayr](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/ShicimingjuCrawleAndDisplay):诗词名家句网站爬取展示
- [x] [📛XianyuCrawler](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/XianyuCrawler):闲鱼商品爬取
- [x] [SohuNewCrawler](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/SohuNewCrawler):新闻网爬取
- [x] [📛WechatCrawler](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/WechatCrawler):微信公众号爬取
- [x] [cnblog](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/cnblog):scrapy博客园爬取
- [x] [WeiboCrawler](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/WeiboCrawler):微博数据爬取免cookie
- [x] [OtherCrawlers](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/OthertCrawler):一些有趣的爬虫例子
- [x] [0x01 百度贴吧](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/OthertCrawler#0x01baidutieba)
- [x] [0x02 豆瓣电影](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/OthertCrawler#0x02doubanmovie)
- [x] [0x03 阿里任务](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/OthertCrawler#0x03alitask)
- [x] [0x04 包图网视频](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/OthertCrawler#0x04baotu)
- [x] [0x05 全景网图片](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/OthertCrawler#0x05quanjing)
- [x] [0x06 豆瓣音乐](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/OthertCrawler#0x06douban_music)
- [x] [0x07 某省药监局](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/OthertCrawler#0x07gdfda_pharmacy)
- [x] [0x08 fofa](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/OthertCrawler#0x08fofa)
- [ ] [0x09 汽车之家](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/OthertCrawler#0x09autohome)
- [ ] [0x010 国家统计局]()
- [x] [0x10 baidu](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/OthertCrawler/0x10baidu)
- [x] [0x11 蜘蛛泛目录](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/OthertCrawler/0x11zzc)
- [x] [0x12 今日头条](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/OthertCrawler/0x12toutiao)
- [x] [0x13 豆瓣影评分析](https://gitee.com/AJay13/ECommerceCrawlers/tree/master/OthertCrawler/0x13douban_yingping)
## Contribution👏
|
|
|
|
|
|:-:|:-:|:-:|:-:|
|[Joynice](https://github.com/Joynice)|[liangweiyang](https://github.com/liangweiyang)|[Hatcat123](https://github.com/Hatcat123)|[jihu9](https://github.com/jihu9)|
> wait for you
## What You Learn ?
本项目使用了哪些有用的技术
- 数据分析
- [x] chrome Devtools
- [x] Fiddler
- [x] Firefox
- [ ] appnium
- [x] anyproxy
- [x] mitmproxy
- 数据采集
- [x] [urllib]()
- [x] [requests](https://2.python-requests.org//zh_CN/latest/user/quickstart.html)
- [x] scrapy
- [x] selenium
- [ ] pypputeer
- 数据解析
- [x] re
- [x] beautifulsoup
- [x] xpath
- [x] pyquery
- [x] css
- 数据保存
- [x] txt文本
- [x] csv
- [x] excel
- [ ] mysql
- [x] redis
- [x] mongodb
- 反爬验证
- [x] mitmproxy 绕过淘宝检测
- [x] js数据解密
- [x] js数据生成对应指纹库
- [x] 文字混淆
- [ ] 穿插脏数据
- 效率爬虫
- [x] 单线程
- [x] 多线程
- [x] 多进程
- [x] 异步协成
- [x] 生产者消费者多线程
- [ ] 分布式爬虫系统
> *链接标识官方文档或推荐例子*
## What`s Spider 🕷?
**[ECommerceCrawlerswiki](https://gitee.com/AJay13/ECommerceCrawlers/wiki)**
### 🙋0x01 爬虫简介
**爬虫**
爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
**[爬虫到底违法吗?](https://gitee.com/AJay13/ECommerceCrawlers/wiki/%E7%88%AC%E8%99%AB%E5%88%B0%E5%BA%95%E8%BF%9D%E6%B3%95%E5%90%97%3F)**
**爬虫作用**
- 市场分析:电商分析、商圈分析、一二级市场分析等
- 市场监控:电商、新闻、房源监控等
- 商机发现:招投标情报发现、客户资料发掘、企业客户发现等
**网页介绍**
- url
- html
- css
- js
**Roobots协议**
无规矩不成方圆,Robots协议就是爬虫中的规矩,它告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。
通常是一个叫作robots.txt的文本文件,放在网站的根目录下。
### 🙋0x02爬取过程
**获取数据**
**模拟获取数据**
### 🙋0x03解析数据
**re**
**beautifulsoup**
**xpath**
**yquery**
**css**
### 🙋0x04 存储数据
小规模数据存储(文本)
- txt文本
- csv
- excel
大规模数据存储(数据库)
- mysql
- redis
- mongodb
### 🙋0x05 反爬措施
反爬
反反爬
### 🙋0x06 效率爬虫
多线程
多进程
异步协程
scrapy框架
### 🙋0x07 可视化处理
flask Web
django Web
tkinter
echarts
electron
## Padding
…………
## Awesome-Example😍:
- [CriseLYJ/awesome-python-login-model](https://github.com/CriseLYJ/awesome-python-login-model)
- [lb2281075105/Python-Spider](https://github.com/lb2281075105/Python-Spider)
- [SpiderCrackDemo](https://github.com/wkunzhi/SpiderCrackDemo)
添加这位大佬的微信,回复‘爬虫’,拉你进爬虫讨论微信群
D76(1N2KFX`R(YG.jpg")