diff --git "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" new file mode 100644 index 0000000000000000000000000000000000000000..06bdbb56de9af0dc6ce6c2c677980e614a563158 --- /dev/null +++ "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" @@ -0,0 +1,43 @@ +# 数据采集的五种方式 + +> 其中1-4这4中可以作为简单易用的数据来源,而5这是定制化的方法,适合**一般企业自主开发** + +## 1 公开的数据库 + +- [中国统计信息网](https://cnstats.org) +- wind(万得,金融数据) +- [Kaggle Dataset](https://www.kaggle.com/datasets) +- [CEIC](https://www.ceicdata.com/zh-hans) +- [figshare](https://figshare.com/) +- github,比如[awesome public data](https://github.com/adamli-86/awesome-public-datasets) + +## 2 云服务下载及数据众包 +- 亚马逊云aws [全球最大云服务,下载数据的教程](https://cloud.tencent.com/developer/article/1867937) +- 谷歌、百度等数据众包(类似维基百科、地图标注的众人合力提供数据,包括共享编辑的云文档等) + +## 3 网络指数 + **只能看数据指标和走势,支持关键字搜索** +- 微信指数 (小程序) +- 百度指数 +- 阿里指数 +- 艾瑞咨询 +- 友盟指数 + + +## 4 第三方采集器 (免费版一般很慢) + +- 火车采集器 +- 八爪鱼 +- 集搜客 + +## 5 网络爬虫 + +1. 利用Request等包可以获取网页源代码数据** + +2. 利用BS4(Beautiful Soup)解析源代码的JSON和xml等数据,提取结构化信息** + +3. 利用PyMysql等存储到数据库 + + **建议新手** 可以直接用更强大的PyScrapy,两三行代码就能获取主流平台如阿里巴巴、亚马逊等电商数据 + + diff --git a/README.md b/README.md index 578603b1ecc8405a2fffafed56706412a0ff0368..384523c93493be0ef352278c4d2676d4a90bc8d6 100644 --- a/README.md +++ b/README.md @@ -1,23 +1,57 @@ -## 运用Pandas数据分析入门练习(Greenhand's exercises of Data Analysis with pandas ) -# 给菜鸟的Python数据分析基础练习 -# excises of data analysis using Python for beginners + +## 菜鸟数据分析入门 (Python Data Analysis) -利用Python的强大的库pandas,可以进行数据探索和建立数据报表(pandas提供精致和强大的数据框和清洗数据的功能) + + + -## 前提 Prerequisite -确保已经安装python和jupyternotebook -a)安装conda以及python,(conda是Python数据分析方面最流行的整合环境) -$ pip install conda -$ conda install python +在conda环境运行Jupyter,利用Python的强大的库pandas,可以进行数据探索和建立数据报表。 -b)安装jupyter notebook -$ conda jupyter notebook +**一天一个notebook,一周入门数据分析!** + + +### 操作步骤 -## 操作步骤 Deploy Action +* **1)Git Clone下载到本地电脑** -1)Git Clone下载到本地电脑 -$ git clone https://github.com/adamli-86/Pandas-Exercises.git -2)运行notebook +` + $ git clone https://github.com/adamli-86/Pandas-Exercises.git +` + +* **2)运行notebook** + +` + $ conda run jupyter notebook +` + +* **3)浏览器会自动打开notebook,主页就是文件目录,找到该文件夹即可** + +### 前提 +***Python(pandas、seaborn) + conda环境 + Jupyte rNotebook*** ++ **1.确保已经安装conda、python** +``` + $ conda -V + + $ python -V +``` +若显示版本号,证明系统已经安装python,若无,请安装 +``` + $ pip install conda + + $ conda install python +``` ++ **2.确保安装了jupyter notebook** + +` $ conda run jupyter notebook -可以看到文件目录,找到该文件夹即可 +` + +**附:Jupyter Notebook官方安装:** + + +官方说明: https://jupyter.readthedocs.io/en/latest/install.html + +摘要: https://shimo.im/docs/gV8rvp8DHtvcrkpQ + +