# 唐家丽 **Repository Path**: web-crawler-course/tang-jiali ## Basic Information - **Project Name**: 唐家丽 - **Description**: 网络爬虫课程 - **Primary Language**: Python - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2021-10-05 - **Last Updated**: 2021-12-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 唐家丽 #### 一、介绍 :fa-star: 第一,实现简单的网页爬虫,主要通过正则表达式、XPath语言和BeautifulSoup4这三种方式进行猫眼电影网站爬取Top100榜单信息; 对应的实现代码文件夹:1. 正则方式爬取猫眼电影榜单信息 2. XPath方式爬取猫眼电影榜单信息 3. BeautifulSoup4方式爬取猫眼电影榜单信息 :fa-star: 第二,爬取json格式的网站————大麦网演出爬虫; 对应的实现代码文件夹:4. 爬取大麦网信息(json格式) :fa-star: 第三,Mongodb数据库的使用:将简单的网页爬虫得到的信息保存到Mongodb数据库中,并从数据库中提取数据进行分析; 对应的实现代码文件夹:5. Mongodb数据库存储和数据的分析 :fa-star: 第四,实现图片、音乐与视频的下载: :one: 下载的入门学习:在网上寻找任意音乐与视频链接,通过链接下载音乐与视频; :two: 使用Mongodb数据库保存的信息,通过图片链接,进行下载图片; 对应的实现代码文件夹:6. 数据库与图片、歌曲视频的下载 :fa-star: 第五,实现GUI界面:将简单的网页爬虫得到的Top100电影榜单数据,通过GUI界面实现相关信息展示;(注:结合Mongodb数据库实现) 对应的实现代码文件夹:7. GUI与猫眼电影榜单结合爬取信息 :fa-star: 第六,Selenium模拟浏览器的实现:使用谷歌浏览器爬取京东信息;(注:结合Mongodb数据库与GUI界面实现) 对应的实现代码文件夹: 8. Selenium模拟浏览器京东信息爬取 :fa-star: 第七,Web模拟浏览器的实现:使用谷歌浏览器爬取微博信息;(注:结合GUI界面实现) 对应的实现代码文件夹: 9. Web模拟浏览器爬取微博信息 :fa-star: 第八,Web应用框架———Flask:将简单的网页爬虫得到的Top100电影榜单数据在网页上展示;(注:结合Mongodb数据库实现) 对应的实现代码文件夹: 10. Flask_猫眼电影Top100信息 #### 二、代码实现的软件说明 1. anaconda软件官网下载网址:https://www.anaconda.com/download/ 2. 安装说明网址:https://blog.csdn.net/ITLearnHall/article/details/81708148/ 3. Mongodb数据库安装:在文件夹5. Mongodb数据库存储和数据的分析有详细的安装过程。 #### 三、安装包的说明 :fa-star: 使用Spyder软件,安装包的说明: :fa-star-o: 方式一:打开anaconda的 Anaconda Prompt 的控制命令窗口(注:建议鼠标右键选择以管理员身份运行): pip install 需要安装的包 :fa-star-o: 方式二:直接在Spyder控制台上输入(注:!为英文状态下的感叹号,如果安装的包比较大,建议在控制命令窗口安装,否则安装会很久): !pip install 需要安装的包 :fa-star-o: 可以查看已经安装的包:pip list :fa-star-o: pip更新:python -m pip install --upgrade pip #### 四、使用到的包 1. 发送请求requests,导入方式:import requests as rq 2. 正则表达式模块re,导入方式:import re 3. pandas模块,导入方式:import pandas as pd 4. 使用XPath时,用到第三方库:lxml,用来快速解析XML以及HTML文档;导入方式:import lxml.html;解析数据:from lxml import etree 5. 从HTML和XML中提取数据Beautiful Soup4(BS4),导入方式:from bs4 import BeautifulSoup as bs 6. 使用json函数需要导入json库:import json 7. 导入Mongodb数据库接口:from pymongo import MongoClient 8. 使用Tkinter,需要导入Python提供的tkinter模块:import tkinter as tk 9. 获取文件路径和文件名,需要导入filedialog包:from tkinter import filedialog 10. 创建ttk控件:from tkinter import ttk 11. Selenium模拟浏览器,打开网页,导入webdriver模块:from selenium import webderiver 12. from selenium.webdriver.support import expected_conditions as EC 13. 设置等待:from selenium.webdriver.support.wait import WebDriverWait 14. 判断元素(模拟浏览器元素定位):from selenium.webdriver.common.by import By 15. 从time模块中引入sleep函数,使用sleep函数可以让程序休眠(推迟调用线程的运行):from time import sleep 16. 有序字典:from collections import OrderedDict 17. 从flask包中导入Flask和render_template对象:from flask import Flask,render_template 18. random()方法返回随机生成的一个实数,它在[0,1)范围内:import random 19. 时间模块:import time;from datetime import datetime 20. 加载图像:from PIL import Image 21. Web模拟浏览器:from splinter.browser import Browser