# 何健兰(新) **Repository Path**: web-crawler-course/internet-worm ## Basic Information - **Project Name**: 何健兰(新) - **Description**: No description available - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2021-11-01 - **Last Updated**: 2021-12-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 网络爬虫 ## 介绍 主要是用来存储平常作业作业 1、实现简单的网页爬虫,主要通过正则表达式、XPath语言和BeautifulSoup4这三种方式进行猫眼电影网站爬取Top100榜单信息; 实现代码文件夹: 第一次作业—正则表达式爬取猫眼top100榜单 第二次作业—XPath爬取猫眼top100榜单 第三次作业—bs4爬取猫眼top100榜单 2、大麦网演出爬虫(利用json格式) 实现代码文件夹:第四次作业—爬取大麦网信息 3、Mongodb数据库的使用:将简单的网页爬虫得到的信息保存到Mongodb数据库中,并从数据库中提取数据进行分析; 实现代码文件夹:第五次作业—猫眼榜单数据写入Mongdbs数据库及数据分析 4、实现图片、音乐与视频的下载 实现代码文件夹:第六次作业—图片、音频、视频的爬取 5、,将简单的网页爬虫得到的Top100电影榜单数据,通过GUI界面实现相关信息展示;(Mongodb数据库实现) 实现代码文件夹:第七次作业—猫眼电影与GUI结合 6、,Selenium模拟浏览器的实现:使用谷歌浏览器爬取京东信息; 实现代码文件夹: 第八次作业—用selenium爬取京东商品信息和评论 7,Web模拟浏览器的实现:使用谷歌浏览器爬取微博信息 实现代码文件夹: 第九次作业—微博信息爬取 8,Web应用框架———Flask:将简单的网页爬虫得到的Top100电影榜单数据在网页上展示;(注:结合Mongodb数据库实现) 对应的实现代码文件夹: 10. 第十次作业—flask框架可视化猫眼榜单信息 ## 软件架构 1、使用python的发行版Anaconda,它集成了众多Python常用包,并自带简单易学且界面友好的集成开发环境Spyder。下载地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=A 2、:使用的集成开发环境J为etBrains公司的PyCharm,下载时有收费和免费两个版本可以选择,Professional(专业版,收费)和Community(社区版,免费),一般来说,我们使用Community版本就可以了。下载免费社区版.Pycharm的官网下载地址是一个英文网站:https://www.jetbrains.com/pycharm/download/#section=windows ## 安装教程 1. 安装说明网址:https://blog.csdn.net/ITLearnHall/article/details/81708148/ 2. Mongodb数据库安装:在第五次作业—猫眼榜单数据写入Mongdbs数据库及数据分析,有详细的安装过程。