# 唐家丽

**Repository Path**: web-crawler-course/tang-jiali

## Basic Information

- **Project Name**: 唐家丽
- **Description**: 网络爬虫课程
- **Primary Language**: Python
- **License**: MulanPSL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 2
- **Created**: 2021-10-05
- **Last Updated**: 2021-12-21

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 唐家丽

#### 一、介绍
 :fa-star: 第一，实现简单的网页爬虫，主要通过正则表达式、XPath语言和BeautifulSoup4这三种方式进行猫眼电影网站爬取Top100榜单信息；

                对应的实现代码文件夹：1. 正则方式爬取猫眼电影榜单信息
                
                                    2. XPath方式爬取猫眼电影榜单信息
                
                                    3. BeautifulSoup4方式爬取猫眼电影榜单信息

 :fa-star: 第二，爬取json格式的网站————大麦网演出爬虫；

                对应的实现代码文件夹：4. 爬取大麦网信息（json格式）        

 :fa-star: 第三，Mongodb数据库的使用：将简单的网页爬虫得到的信息保存到Mongodb数据库中，并从数据库中提取数据进行分析；

                对应的实现代码文件夹：5. Mongodb数据库存储和数据的分析

 :fa-star: 第四，实现图片、音乐与视频的下载： :one: 下载的入门学习：在网上寻找任意音乐与视频链接，通过链接下载音乐与视频； :two: 使用Mongodb数据库保存的信息，通过图片链接，进行下载图片；

                对应的实现代码文件夹：6. 数据库与图片、歌曲视频的下载

 :fa-star: 第五，实现GUI界面：将简单的网页爬虫得到的Top100电影榜单数据，通过GUI界面实现相关信息展示；（注：结合Mongodb数据库实现）

                对应的实现代码文件夹：7. GUI与猫眼电影榜单结合爬取信息

 :fa-star: 第六，Selenium模拟浏览器的实现：使用谷歌浏览器爬取京东信息；（注：结合Mongodb数据库与GUI界面实现）

                对应的实现代码文件夹： 8. Selenium模拟浏览器京东信息爬取

 :fa-star: 第七，Web模拟浏览器的实现：使用谷歌浏览器爬取微博信息；（注：结合GUI界面实现）

                对应的实现代码文件夹： 9. Web模拟浏览器爬取微博信息

 :fa-star: 第八，Web应用框架———Flask：将简单的网页爬虫得到的Top100电影榜单数据在网页上展示；（注：结合Mongodb数据库实现）

                对应的实现代码文件夹： 10. Flask_猫眼电影Top100信息

#### 二、代码实现的软件说明
1. anaconda软件官网下载网址：https://www.anaconda.com/download/

2. 安装说明网址：https://blog.csdn.net/ITLearnHall/article/details/81708148/

3. Mongodb数据库安装：在文件夹5. Mongodb数据库存储和数据的分析有详细的安装过程。

#### 三、安装包的说明

 :fa-star: 使用Spyder软件，安装包的说明：

 :fa-star-o: 方式一：打开anaconda的 Anaconda Prompt 的控制命令窗口（注：建议鼠标右键选择以管理员身份运行）：

                                pip install 需要安装的包

 :fa-star-o: 方式二：直接在Spyder控制台上输入（注：!为英文状态下的感叹号，如果安装的包比较大，建议在控制命令窗口安装，否则安装会很久）：

                               !pip install 需要安装的包

 :fa-star-o: 可以查看已经安装的包：pip list

 :fa-star-o: pip更新：python -m pip install --upgrade pip

#### 四、使用到的包

1.  发送请求requests，导入方式：import requests as rq

2.  正则表达式模块re，导入方式：import re 

3.  pandas模块，导入方式：import pandas as pd

4.  使用XPath时，用到第三方库：lxml，用来快速解析XML以及HTML文档；导入方式：import lxml.html；解析数据：from lxml import etree

5.  从HTML和XML中提取数据Beautiful Soup4(BS4)，导入方式：from bs4 import BeautifulSoup as bs

6.  使用json函数需要导入json库：import json

7.  导入Mongodb数据库接口：from pymongo import MongoClient

8.  使用Tkinter，需要导入Python提供的tkinter模块：import tkinter as tk

9.  获取文件路径和文件名，需要导入filedialog包：from tkinter import filedialog

10.  创建ttk控件：from tkinter import ttk

11.  Selenium模拟浏览器，打开网页，导入webdriver模块：from selenium import webderiver

12.  from selenium.webdriver.support import expected_conditions as EC

13.  设置等待：from selenium.webdriver.support.wait import WebDriverWait

14.  判断元素（模拟浏览器元素定位）：from selenium.webdriver.common.by import By

15.  从time模块中引入sleep函数，使用sleep函数可以让程序休眠（推迟调用线程的运行）：from time import sleep

16.  有序字典：from collections import OrderedDict

17.  从flask包中导入Flask和render_template对象：from flask import Flask,render_template

18.  random()方法返回随机生成的一个实数，它在[0,1)范围内：import random

19.  时间模块：import time；from datetime import datetime

20.  加载图像：from PIL import Image

21.  Web模拟浏览器：from splinter.browser import Browser