From 13d750365b192a5944dda1f89c3884031bd85a8f Mon Sep 17 00:00:00 2001 From: adamli-86 Date: Sat, 25 Jul 2020 18:54:55 +0800 Subject: [PATCH 01/15] Update README.md --- README.md | 19 +++++++++++-------- 1 file changed, 11 insertions(+), 8 deletions(-) diff --git a/README.md b/README.md index 578603b..37a3a16 100644 --- a/README.md +++ b/README.md @@ -1,20 +1,23 @@ -## 运用Pandas数据分析入门练习(Greenhand's exercises of Data Analysis with pandas ) -# 给菜鸟的Python数据分析基础练习 -# excises of data analysis using Python for beginners +# 给菜鸟的数据分析基础练习(Python的pandas库,在Notebook运行) +# excises of data analysis using Notebook(Greenhand's exercises of Data Analysis with pandas ) -利用Python的强大的库pandas,可以进行数据探索和建立数据报表(pandas提供精致和强大的数据框和清洗数据的功能) +## 利用Python的强大的库pandas,可以进行数据探索和建立数据报表(pandas提供精致和强大的数据框和清洗数据的功能),在conda环境运行Jupyter notebook操作,方便快捷,一天一个note,一周完成! + +### 前提 Prerequisite +确保已经安装conda、python和jupyter notebook +$ conda -V +$ python -V +显示版本号,证明系统已经安装,可以跳过步骤a) -## 前提 Prerequisite -确保已经安装python和jupyternotebook a)安装conda以及python,(conda是Python数据分析方面最流行的整合环境) $ pip install conda $ conda install python b)安装jupyter notebook -$ conda jupyter notebook +$ conda install jupyter notebook -## 操作步骤 Deploy Action +### 操作步骤 Deploy Action 1)Git Clone下载到本地电脑 $ git clone https://github.com/adamli-86/Pandas-Exercises.git -- Gitee From 3ae5d786b02751781dfa5a10a1cd880e27cc3716 Mon Sep 17 00:00:00 2001 From: adamli-86 Date: Sat, 25 Jul 2020 18:59:22 +0800 Subject: [PATCH 02/15] Update README.md --- README.md | 20 +++++++++++++++----- 1 file changed, 15 insertions(+), 5 deletions(-) diff --git a/README.md b/README.md index 37a3a16..2d702ce 100644 --- a/README.md +++ b/README.md @@ -1,26 +1,36 @@ # 给菜鸟的数据分析基础练习(Python的pandas库,在Notebook运行) -# excises of data analysis using Notebook(Greenhand's exercises of Data Analysis with pandas ) + excises of data analysis using Notebook(Greenhand's exercises of Data Analysis with pandas ) -## 利用Python的强大的库pandas,可以进行数据探索和建立数据报表(pandas提供精致和强大的数据框和清洗数据的功能),在conda环境运行Jupyter notebook操作,方便快捷,一天一个note,一周完成! +利用Python的强大的库pandas,可以进行数据探索和建立数据报表(pandas提供精致和强大的数据框和清洗数据的功能),在conda环境运行Jupyter notebook操作,方便快捷,一天一个note,一周完成! ### 前提 Prerequisite 确保已经安装conda、python和jupyter notebook -$ conda -V -$ python -V + +'''$ conda -V + +$ python -V''' + 显示版本号,证明系统已经安装,可以跳过步骤a) a)安装conda以及python,(conda是Python数据分析方面最流行的整合环境) + $ pip install conda + $ conda install python b)安装jupyter notebook + $ conda install jupyter notebook ### 操作步骤 Deploy Action 1)Git Clone下载到本地电脑 +、 $ git clone https://github.com/adamli-86/Pandas-Exercises.git +、 2)运行notebook -$ conda run jupyter notebook + +'$ conda run jupyter notebook' + 可以看到文件目录,找到该文件夹即可 -- Gitee From 3c601dd66e401da1eb7e205affe496f8fa48ef5f Mon Sep 17 00:00:00 2001 From: adamli-86 Date: Sat, 25 Jul 2020 19:32:39 +0800 Subject: [PATCH 03/15] Update README.md --- README.md | 55 +++++++++++++++++++++++++++++++------------------------ 1 file changed, 31 insertions(+), 24 deletions(-) diff --git a/README.md b/README.md index 2d702ce..4372ad9 100644 --- a/README.md +++ b/README.md @@ -1,36 +1,43 @@ -# 给菜鸟的数据分析基础练习(Python的pandas库,在Notebook运行) - excises of data analysis using Notebook(Greenhand's exercises of Data Analysis with pandas ) +## 菜鸟数据分析入门 (Python Data Analysis) -利用Python的强大的库pandas,可以进行数据探索和建立数据报表(pandas提供精致和强大的数据框和清洗数据的功能),在conda环境运行Jupyter notebook操作,方便快捷,一天一个note,一周完成! +***Python(pandas、seaborn) + conda环境 + Jupyte rNotebook*** -### 前提 Prerequisite -确保已经安装conda、python和jupyter notebook -'''$ conda -V +利用Python的强大的库pandas,可以进行数据探索和建立数据报表(pandas提供精致和强大的数据框和清洗数据的功能),**在conda环境运行Jupyter,一天一个notebook,一周完成!** -$ python -V''' -显示版本号,证明系统已经安装,可以跳过步骤a) +### 前提 +* 1.确保已经安装conda、python +``` + $ conda -V -a)安装conda以及python,(conda是Python数据分析方面最流行的整合环境) + $ python -V +``` +若显示版本号,证明系统已经安装python,若无,请安装 +``` + $ pip install conda -$ pip install conda + $ conda install python +``` +* 2.确保安装了jupyter notebook + $ jupyter notebook -$ conda install python +若无反应,则按下面步骤安装 +https://shimo.im/docs/gV8rvp8DHtvcrkpQ -b)安装jupyter notebook +### 操作步骤 -$ conda install jupyter notebook +* 1.Git Clone下载到本地电脑 +``` + $ git clone https://github.com/adamli-86/Pandas-Exercises.git -### 操作步骤 Deploy Action - -1)Git Clone下载到本地电脑 -、 -$ git clone https://github.com/adamli-86/Pandas-Exercises.git -、 -2)运行notebook - -'$ conda run jupyter notebook' - -可以看到文件目录,找到该文件夹即可 +* 2.运行notebook +``` + $ jupyter notebook + + or + + $ conda run jupyter notebook +``` +此时浏览器会自动打开notebook,主页就是文件目录,找到该文件夹即可 -- Gitee From 8eee0d8b70ebee936bf88dca674e1c999f0fb84e Mon Sep 17 00:00:00 2001 From: adamli-86 Date: Sat, 25 Jul 2020 19:46:15 +0800 Subject: [PATCH 04/15] Update README.md --- README.md | 44 +++++++++++++++++++++++++------------------- 1 file changed, 25 insertions(+), 19 deletions(-) diff --git a/README.md b/README.md index 4372ad9..eeb0e21 100644 --- a/README.md +++ b/README.md @@ -4,11 +4,27 @@ ***Python(pandas、seaborn) + conda环境 + Jupyte rNotebook*** -利用Python的强大的库pandas,可以进行数据探索和建立数据报表(pandas提供精致和强大的数据框和清洗数据的功能),**在conda环境运行Jupyter,一天一个notebook,一周完成!** +利用Python的强大的库pandas,可以进行数据探索和建立数据报表(pandas提供精致和强大的数据框和清洗数据的功能) +**在conda环境运行Jupyter,一天一个notebook,一周完成!** +### 操作步骤 + +* Git Clone下载到本地电脑 + +` + $ git clone https://github.com/adamli-86/Pandas-Exercises.git +` + +* 运行notebook + +` + $ conda run jupyter notebook +` + +**浏览器会自动打开notebook**,主页就是文件目录,找到该文件夹即可 ### 前提 -* 1.确保已经安装conda、python ++ 1.确保已经安装conda、python ``` $ conda -V @@ -20,24 +36,14 @@ $ conda install python ``` -* 2.确保安装了jupyter notebook - $ jupyter notebook ++ 2.确保安装了jupyter notebook -若无反应,则按下面步骤安装 -https://shimo.im/docs/gV8rvp8DHtvcrkpQ +` +$ conda run jupyter notebook +` +若报错,**请重新安装Conda和Jupyter Notebook,方法如下** -### 操作步骤 +官方说明: https://jupyter.readthedocs.io/en/latest/install.html +备用: https://shimo.im/docs/gV8rvp8DHtvcrkpQ -* 1.Git Clone下载到本地电脑 -``` - $ git clone https://github.com/adamli-86/Pandas-Exercises.git -* 2.运行notebook -``` - $ jupyter notebook - - or - - $ conda run jupyter notebook -``` -此时浏览器会自动打开notebook,主页就是文件目录,找到该文件夹即可 -- Gitee From 71c9a3f509c26813d026e9509b262ad79c7c1bc5 Mon Sep 17 00:00:00 2001 From: adamli-86 Date: Sat, 25 Jul 2020 20:03:16 +0800 Subject: [PATCH 05/15] Update README.md --- README.md | 9 +++++---- 1 file changed, 5 insertions(+), 4 deletions(-) diff --git a/README.md b/README.md index eeb0e21..d7bf8ed 100644 --- a/README.md +++ b/README.md @@ -1,11 +1,11 @@ ## 菜鸟数据分析入门 (Python Data Analysis) -***Python(pandas、seaborn) + conda环境 + Jupyte rNotebook*** -利用Python的强大的库pandas,可以进行数据探索和建立数据报表(pandas提供精致和强大的数据框和清洗数据的功能) -**在conda环境运行Jupyter,一天一个notebook,一周完成!** + +在conda环境运行Jupyter,利用Python的强大的库pandas,可以进行数据探索和建立数据报表 +**一天一个notebook,一周入门数据分析!** ### 操作步骤 @@ -23,7 +23,8 @@ **浏览器会自动打开notebook**,主页就是文件目录,找到该文件夹即可 -### 前提 +### 前提 +***Python(pandas、seaborn) + conda环境 + Jupyte rNotebook*** + 1.确保已经安装conda、python ``` $ conda -V -- Gitee From b6b65d03bfa9905ea1efa8f51bfdac6e0e1a9eff Mon Sep 17 00:00:00 2001 From: adamli-86 Date: Sat, 25 Jul 2020 20:04:39 +0800 Subject: [PATCH 06/15] Update README.md --- README.md | 7 +++++-- 1 file changed, 5 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index d7bf8ed..72de991 100644 --- a/README.md +++ b/README.md @@ -42,9 +42,12 @@ ` $ conda run jupyter notebook ` -若报错,**请重新安装Conda和Jupyter Notebook,方法如下** -官方说明: https://jupyter.readthedocs.io/en/latest/install.html +若报错,**请重新安装Conda和Jupyter Notebook,方法如下** + + +官方说明: https://jupyter.readthedocs.io/en/latest/install.html + 备用: https://shimo.im/docs/gV8rvp8DHtvcrkpQ -- Gitee From 65f6b537364b9c0301a1aeca3a988c6cea017722 Mon Sep 17 00:00:00 2001 From: adamli-86 Date: Sat, 25 Jul 2020 20:09:39 +0800 Subject: [PATCH 07/15] Update README.md --- README.md | 24 +++++++++++++----------- 1 file changed, 13 insertions(+), 11 deletions(-) diff --git a/README.md b/README.md index 72de991..911af1d 100644 --- a/README.md +++ b/README.md @@ -1,31 +1,33 @@ + ## 菜鸟数据分析入门 (Python Data Analysis) + + +在conda环境运行Jupyter,利用Python的强大的库pandas,可以进行数据探索和建立数据报表。 - -在conda环境运行Jupyter,利用Python的强大的库pandas,可以进行数据探索和建立数据报表 **一天一个notebook,一周入门数据分析!** - + ### 操作步骤 -* Git Clone下载到本地电脑 +* **Git Clone下载到本地电脑 ` $ git clone https://github.com/adamli-86/Pandas-Exercises.git ` -* 运行notebook +* **运行notebook ` $ conda run jupyter notebook ` -**浏览器会自动打开notebook**,主页就是文件目录,找到该文件夹即可 - +浏览器会自动打开notebook,主页就是文件目录,找到该文件夹即可 + ### 前提 ***Python(pandas、seaborn) + conda环境 + Jupyte rNotebook*** -+ 1.确保已经安装conda、python ++ **1.确保已经安装conda、python ``` $ conda -V @@ -37,17 +39,17 @@ $ conda install python ``` -+ 2.确保安装了jupyter notebook ++ **2.确保安装了jupyter notebook ` $ conda run jupyter notebook ` -若报错,**请重新安装Conda和Jupyter Notebook,方法如下** +**附:Jupyter Notebook官方安装:** 官方说明: https://jupyter.readthedocs.io/en/latest/install.html -备用: https://shimo.im/docs/gV8rvp8DHtvcrkpQ +摘要: https://shimo.im/docs/gV8rvp8DHtvcrkpQ -- Gitee From 4c1eb4d28a9a3a95913aa623116fca91a3adccef Mon Sep 17 00:00:00 2001 From: adamli-86 Date: Sat, 25 Jul 2020 20:12:42 +0800 Subject: [PATCH 08/15] Update README.md --- README.md | 12 +++++++----- 1 file changed, 7 insertions(+), 5 deletions(-) diff --git a/README.md b/README.md index 911af1d..384523c 100644 --- a/README.md +++ b/README.md @@ -4,30 +4,32 @@ + 在conda环境运行Jupyter,利用Python的强大的库pandas,可以进行数据探索和建立数据报表。 **一天一个notebook,一周入门数据分析!** + ### 操作步骤 -* **Git Clone下载到本地电脑 +* **1)Git Clone下载到本地电脑** ` $ git clone https://github.com/adamli-86/Pandas-Exercises.git ` -* **运行notebook +* **2)运行notebook** ` $ conda run jupyter notebook ` -浏览器会自动打开notebook,主页就是文件目录,找到该文件夹即可 +* **3)浏览器会自动打开notebook,主页就是文件目录,找到该文件夹即可** ### 前提 ***Python(pandas、seaborn) + conda环境 + Jupyte rNotebook*** -+ **1.确保已经安装conda、python ++ **1.确保已经安装conda、python** ``` $ conda -V @@ -39,7 +41,7 @@ $ conda install python ``` -+ **2.确保安装了jupyter notebook ++ **2.确保安装了jupyter notebook** ` $ conda run jupyter notebook -- Gitee From 86273a2ba573eec2ad15c0e40b40922e68305e6b Mon Sep 17 00:00:00 2001 From: lichaozhao Date: Sun, 6 Mar 2022 01:55:26 +0000 Subject: [PATCH 09/15] =?UTF-8?q?add=2001=5FGetting=5F&=5FKnowing=5FYour?= =?UTF-8?q?=5FData/=E5=A6=82=E4=BD=95=E9=87=87=E9=9B=86=E6=95=B0=E6=8D=AE.?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...7\207\351\233\206\346\225\260\346\215\256" | 32 +++++++++++++++++++ 1 file changed, 32 insertions(+) create mode 100644 "01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256" diff --git "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256" "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256" new file mode 100644 index 0000000..940b9be --- /dev/null +++ "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256" @@ -0,0 +1,32 @@ +# 国内外通用的数据来源: + +* 1 公开的数据库 + +- 国家数据 - +- CEIC - +- wind(万得,金融数据)- +- 搜数网 - +- 中国统计信息网 - +- 亚马逊aws - +- figshare - +- github - + +02 数据交易平台 +- 优易数据 - +- 数据堂 - + +03 网络指数 +- 百度指数 - +- 阿里指数 - +- 艾瑞咨询 - +- 友盟指数 - +- 微指数 - + +04 第三方网络采集器 +- 火车采集器 - +- 八爪鱼 - +- 集搜客 - + +05 网络爬虫 +-- 利用Request(urllib) 获取网页源代码 +-- 利用Beautiful Soup(JSON、XML解析)从源代码有用信息 -- Gitee From 0388b41393ada833ce28a192a42197b270119ec5 Mon Sep 17 00:00:00 2001 From: lichaozhao Date: Sun, 6 Mar 2022 02:08:35 +0000 Subject: [PATCH 10/15] =?UTF-8?q?rename=2001=5FGetting=5F&=5FKnowing=5FYou?= =?UTF-8?q?r=5FData/=E5=A6=82=E4=BD=95=E9=87=87=E9=9B=86=E6=95=B0=E6=8D=AE?= =?UTF-8?q?=20to=2001=5FGetting=5F&=5FKnowing=5FYour=5FData/=E5=A6=82?= =?UTF-8?q?=E4=BD=95=E9=87=87=E9=9B=86=E6=95=B0=E6=8D=AE.md.?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...7\207\351\233\206\346\225\260\346\215\256" | 32 ----------------- ...07\351\233\206\346\225\260\346\215\256.md" | 36 +++++++++++++++++++ 2 files changed, 36 insertions(+), 32 deletions(-) delete mode 100644 "01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256" create mode 100644 "01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" diff --git "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256" "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256" deleted file mode 100644 index 940b9be..0000000 --- "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256" +++ /dev/null @@ -1,32 +0,0 @@ -# 国内外通用的数据来源: - -* 1 公开的数据库 - -- 国家数据 - -- CEIC - -- wind(万得,金融数据)- -- 搜数网 - -- 中国统计信息网 - -- 亚马逊aws - -- figshare - -- github - - -02 数据交易平台 -- 优易数据 - -- 数据堂 - - -03 网络指数 -- 百度指数 - -- 阿里指数 - -- 艾瑞咨询 - -- 友盟指数 - -- 微指数 - - -04 第三方网络采集器 -- 火车采集器 - -- 八爪鱼 - -- 集搜客 - - -05 网络爬虫 --- 利用Request(urllib) 获取网页源代码 --- 利用Beautiful Soup(JSON、XML解析)从源代码有用信息 diff --git "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" new file mode 100644 index 0000000..b0c665e --- /dev/null +++ "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" @@ -0,0 +1,36 @@ +# 1-4可以作为简单易用的数据来源,而5是最难也是最个性化的方法,适合** 企业自主开发和定制 **。 + +* 1 公开的数据库 + +- 国家数据 +- CEIC +- wind(万得,金融数据) +- 搜数网 +- 中国统计信息网 +- 亚马逊aws +- figshare +- github + +* 2 数据交易平台 + +- 优易数据 +- 数据堂 + +* 3 网络指数 + +- ** 微信指数 ** +- 百度指数 +- 阿里指数 +- 艾瑞咨询 +- 友盟指数 + + +* 4 第三方网络采集器 + +- 火车采集器 +- 八爪鱼 +- 集搜客 + +* 5 网络爬虫 +- ** 利用Request(urllib) 获取网页源代码 ** +- ** 利用Beautiful Soup(JSON、XML解析)从源代码有用信息 ** -- Gitee From 2c66c96eb951ff271feb9b5d4ac437e81eab940a Mon Sep 17 00:00:00 2001 From: lichaozhao Date: Sun, 6 Mar 2022 02:09:18 +0000 Subject: [PATCH 11/15] =?UTF-8?q?update=2001=5FGetting=5F&=5FKnowing=5FYou?= =?UTF-8?q?r=5FData/=E5=A6=82=E4=BD=95=E9=87=87=E9=9B=86=E6=95=B0=E6=8D=AE?= =?UTF-8?q?.md.?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...75\225\351\207\207\351\233\206\346\225\260\346\215\256.md" | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" index b0c665e..7e699d6 100644 --- "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" +++ "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" @@ -1,4 +1,6 @@ -# 1-4可以作为简单易用的数据来源,而5是最难也是最个性化的方法,适合** 企业自主开发和定制 **。 +# 数据采集 + + _1-4可以作为简单易用的数据来源,而5是最难也是最个性化的方法,适合** 企业自主开发和定制 **。_ * 1 公开的数据库 -- Gitee From d8521e70d6bfc92906676cf9fded7b754de7d0f7 Mon Sep 17 00:00:00 2001 From: lichaozhao Date: Sun, 6 Mar 2022 02:11:14 +0000 Subject: [PATCH 12/15] =?UTF-8?q?update=2001=5FGetting=5F&=5FKnowing=5FYou?= =?UTF-8?q?r=5FData/=E5=A6=82=E4=BD=95=E9=87=87=E9=9B=86=E6=95=B0=E6=8D=AE?= =?UTF-8?q?.md.?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...7\207\351\233\206\346\225\260\346\215\256.md" | 16 ++++++++-------- 1 file changed, 8 insertions(+), 8 deletions(-) diff --git "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" index 7e699d6..23498d8 100644 --- "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" +++ "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" @@ -1,8 +1,8 @@ # 数据采集 - _1-4可以作为简单易用的数据来源,而5是最难也是最个性化的方法,适合** 企业自主开发和定制 **。_ + _1-4可以作为简单易用的数据来源,而5是最难也是最个性化的方法,适合**企业自主开发和定制**。_ -* 1 公开的数据库 +## 1 公开的数据库 - 国家数据 - CEIC @@ -13,12 +13,12 @@ - figshare - github -* 2 数据交易平台 +## 2 数据交易平台 - 优易数据 - 数据堂 -* 3 网络指数 +## 3 网络指数 - ** 微信指数 ** - 百度指数 @@ -27,12 +27,12 @@ - 友盟指数 -* 4 第三方网络采集器 +## 4 第三方网络采集器 - 火车采集器 - 八爪鱼 - 集搜客 -* 5 网络爬虫 -- ** 利用Request(urllib) 获取网页源代码 ** -- ** 利用Beautiful Soup(JSON、XML解析)从源代码有用信息 ** +## 5 网络爬虫 +**利用Request(urllib) 获取网页源代码** +**利用Beautiful Soup(JSON、XML解析)从源代码有用信息** -- Gitee From 3d87ea440676f93d3454a3aa5583963d89cadf82 Mon Sep 17 00:00:00 2001 From: lichaozhao Date: Sun, 6 Mar 2022 03:03:04 +0000 Subject: [PATCH 13/15] =?UTF-8?q?update=2001=5FGetting=5F&=5FKnowing=5FYou?= =?UTF-8?q?r=5FData/=E5=A6=82=E4=BD=95=E9=87=87=E9=9B=86=E6=95=B0=E6=8D=AE?= =?UTF-8?q?.md.?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...225\351\207\207\351\233\206\346\225\260\346\215\256.md" | 7 +++++-- 1 file changed, 5 insertions(+), 2 deletions(-) diff --git "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" index 23498d8..7238d6a 100644 --- "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" +++ "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" @@ -1,6 +1,6 @@ -# 数据采集 +# 数据采集的五种方式 - _1-4可以作为简单易用的数据来源,而5是最难也是最个性化的方法,适合**企业自主开发和定制**。_ + _其中1-4这4中可以作为简单易用的数据来源,而5这是定制化的方法,适合**一般企业自主开发**。_ ## 1 公开的数据库 @@ -17,6 +17,7 @@ - 优易数据 - 数据堂 +- [聚合数据](https://www.juhe.cn) ## 3 网络指数 @@ -34,5 +35,7 @@ - 集搜客 ## 5 网络爬虫 + **利用Request(urllib) 获取网页源代码** + **利用Beautiful Soup(JSON、XML解析)从源代码有用信息** -- Gitee From 1553ff7b5b1ff7b0a87b3b765a20e15b2facb479 Mon Sep 17 00:00:00 2001 From: lichaozhao Date: Sun, 6 Mar 2022 04:15:12 +0000 Subject: [PATCH 14/15] =?UTF-8?q?update=2001=5FGetting=5F&=5FKnowing=5FYou?= =?UTF-8?q?r=5FData/=E5=A6=82=E4=BD=95=E9=87=87=E9=9B=86=E6=95=B0=E6=8D=AE?= =?UTF-8?q?.md.?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...07\351\233\206\346\225\260\346\215\256.md" | 20 ++++++++++++------- 1 file changed, 13 insertions(+), 7 deletions(-) diff --git "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" index 7238d6a..982000d 100644 --- "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" +++ "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" @@ -11,13 +11,13 @@ - 中国统计信息网 - 亚马逊aws - figshare -- github +- github,比如[awesome public data](https://github.com/adamli-86/awesome-public-datasets) ## 2 数据交易平台 -- 优易数据 -- 数据堂 -- [聚合数据](https://www.juhe.cn) +- [财新数据通](https://www.caixin.com/subscribe) (目前国内最好的付费财经数据) + +- 其他 ## 3 网络指数 @@ -28,7 +28,7 @@ - 友盟指数 -## 4 第三方网络采集器 +## 4 第三方采集器 (免费版一般很慢) - 火车采集器 - 八爪鱼 @@ -36,6 +36,12 @@ ## 5 网络爬虫 -**利用Request(urllib) 获取网页源代码** +1. 利用Request等包可以获取网页源代码数据** + +2. 利用BS4(Beautiful Soup)解析源代码的JSON和xml等数据,提取结构化信息** + +3. 利用PyMysql等存储到数据库 + + **建议新手** 可以直接用更强大的PyScrapy,两三行代码就能获取主流平台如阿里巴巴、亚马逊等电商数据 + -**利用Beautiful Soup(JSON、XML解析)从源代码有用信息** -- Gitee From 9e69da5ae2b97320e56cd5cefe68a704b973f749 Mon Sep 17 00:00:00 2001 From: lichaozhao Date: Sun, 6 Mar 2022 06:28:39 +0000 Subject: [PATCH 15/15] =?UTF-8?q?update=2001=5FGetting=5F&=5FKnowing=5FYou?= =?UTF-8?q?r=5FData/=E5=A6=82=E4=BD=95=E9=87=87=E9=9B=86=E6=95=B0=E6=8D=AE?= =?UTF-8?q?.md.?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...07\351\233\206\346\225\260\346\215\256.md" | 24 ++++++++----------- 1 file changed, 10 insertions(+), 14 deletions(-) diff --git "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" index 982000d..06bdbb5 100644 --- "a/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" +++ "b/01_Getting_&_Knowing_Your_Data/\345\246\202\344\275\225\351\207\207\351\233\206\346\225\260\346\215\256.md" @@ -1,27 +1,23 @@ # 数据采集的五种方式 - _其中1-4这4中可以作为简单易用的数据来源,而5这是定制化的方法,适合**一般企业自主开发**。_ +> 其中1-4这4中可以作为简单易用的数据来源,而5这是定制化的方法,适合**一般企业自主开发** ## 1 公开的数据库 -- 国家数据 -- CEIC +- [中国统计信息网](https://cnstats.org) - wind(万得,金融数据) -- 搜数网 -- 中国统计信息网 -- 亚马逊aws -- figshare +- [Kaggle Dataset](https://www.kaggle.com/datasets) +- [CEIC](https://www.ceicdata.com/zh-hans) +- [figshare](https://figshare.com/) - github,比如[awesome public data](https://github.com/adamli-86/awesome-public-datasets) -## 2 数据交易平台 - -- [财新数据通](https://www.caixin.com/subscribe) (目前国内最好的付费财经数据) - -- 其他 +## 2 云服务下载及数据众包 +- 亚马逊云aws [全球最大云服务,下载数据的教程](https://cloud.tencent.com/developer/article/1867937) +- 谷歌、百度等数据众包(类似维基百科、地图标注的众人合力提供数据,包括共享编辑的云文档等) ## 3 网络指数 - -- ** 微信指数 ** + **只能看数据指标和走势,支持关键字搜索** +- 微信指数 (小程序) - 百度指数 - 阿里指数 - 艾瑞咨询 -- Gitee