# Python_week9_homework_project **Repository Path**: clonetiger/Python_week9_homework_project ## Basic Information - **Project Name**: Python_week9_homework_project - **Description**: Python_week9_homework_project 项目介绍 Python全栈开发第九周作业。 作业内容: 1)使用Scrapy爬虫框架爬取新浪网的分类导航信息。网址:http://news.sina.com.cn/guide/ 2)使用scrapy模拟完成人人网登陆的登陆操作。网址:http://www.renren.com/ 3)爬取当当图书网站中所有关于python关键字的图书信息。要求:将图书图片下载存储指定的目录中,而图书信息写入到数据库中。参考URL:http://search.dangdang.com/?key=python&act=input 班级:Python五期 学员:李子坚 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2018-07-08 - **Last Updated**: 2021-07-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README Python_week9_homework_project 项目介绍 Python全栈开发第九周作业。 作业内容: 1)使用Scrapy爬虫框架爬取新浪网的分类导航信息。网址:http://news.sina.com.cn/guide/ 2)使用scrapy模拟完成人人网登陆的登陆操作。网址:http://www.renren.com/ 3)爬取当当图书网站中所有关于python关键字的图书信息。要求:将图书图片下载存储指定的目录中,而图书信息写入到数据库中。参考URL:http://search.dangdang.com/?key=python&act=input 班级:Python五期 学员:李子坚 软件架构 软件架构说明 安装教程 1.spiderjob/dangdangdb_20180708.sql导入Mysql创建数据库dangdangdb和book表结构 2.windows命令行下,进入spiderjob文件夹; 1)运行命令:scrapy crawl sinanews 2)运行命令:scrapy crawl renrenlogin 3)运行命令:scrapy crawl dangdangbook,爬取的图书信息存放在数据库dangdangdb里的book表,图书图片下载存储到文件夹spiderjob/images 使用说明 1.spiderjob ——项目文件夹 2.README.md ——项目说明文件 3.spiderjob/dangdangdb_20180708.sql ——dangdangdb数据库图书信息表book导出的SQL文件,导入Mysql可创建数据库dangdangdb和book表结构 4.spiderjob/scrapy.cfg ——Scrapy部署时的配置文件 5.spiderjob/spiderjob/items.py ——Items的定义,定义抓取的数据结构 6.spiderjob/spiderjob/middlewares.py ——定义Spider和DownLoader的Middlewares中间件实现 7.spiderjob/spiderjob/pipelines.py ——定义Item Pipeline的实现,即定义数据管道 8.spiderjob/spiderjob/settings.py ——定义项目的全局配置 9.spiderjob/spiderjob/spiders/dangdangbook.py ——爬取当当图书网站中所有关于python关键字的图书信息的爬虫类文件 10.spiderjob/spiderjob/spiders/renrenlogin.py ——模拟完成人人网登陆的登陆操作的爬虫类文件 11.spiderjob/spiderjob/spiders/sinanews.py ——爬取新浪网的分类导航信息的爬虫类文件 参与贡献 1.Fork 本项目 2.新建 Feat_xxx 分支 3.提交代码 4.新建 Pull Request 码云特技 1.使用 Readme_XXX.md 来支持不同的语言,例如 Readme_en.md, Readme_zh.md 2.码云官方博客 blog.gitee.com 3.你可以 https://gitee.com/explore 这个地址来了解码云上的优秀开源项目 4. GVP 全称是码云最有价值开源项目,是码云综合评定出的优秀开源项目 5.码云官方提供的使用手册 http://git.mydoc.io/ 6.码云封面人物是一档用来展示码云会员风采的栏目 https://gitee.com/gitee-stars/