# scrapy-douban-group **Repository Path**: bigcoder/scrapy-douban-group ## Basic Information - **Project Name**: scrapy-douban-group - **Description**: 通过一个实际的项目,来学习如何使用scrapy爬取网络上的信息。这里以豆瓣小组为例,对组内的图片进行爬取,相关信息保存数据到MongoDB,图片下载到本地。 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 139 - **Created**: 2019-04-30 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README douban_scrapy =========== [感谢豆瓣小组提供数据来源](http://www.douban.com/group/haixiuzu) 环境准备 -------- * [Scrapy] (http://scrapy.org/) * [MongoDB] (https://www.mongodb.org/) 快速开始 -------- #: 安装必要 python 库 sudo pip install scrapy sudo pip install pymongo #: 下载图片到本地,并且保存相关信息到MongoDB中. scrapy crawl haixiuzu #: 生成本地相册需要的json data. python check.py #: 建立本地http server python -m SimpleHTTPServer 80 #: 打开浏览器输入http://localhost/gallary 已实现的功能 -------- * 爬取大家的发贴信息(标题、标题URL、作者、作者URL等),以及下载图片到本地 * 爬取用户地理位置信息 * 增加RandomUserAgent功能,防止被BAN * 增加延时抓取功能,防止被BAN * 由于下载妹子图片较多,故采用hash方法分散到多个目录进行管理,提高打开文件夹速度 计划实现的功能 -------- * 本地相册功能,可以在浏览器内预览图,通过快捷键j,k,space等对图片进行翻页,加红心,删除等功能 * 本地相册功能打算借鉴(fgallery)[http://www.thregr.org/~wavexx/software/fgallery/demo/] * 如果图片对应的topic已被管理员删除,则高亮显示 更多 ----- * [提交建议,需求,Bug报告](http://git.oschina.net/mktime/scrapy-douban-group/issues) * [Fork Me](http://git.oschina.net/mktime/scrapy-douban-group/fork)