# scrapy_for_video **Repository Path**: aetherbyte/scrapy_for_video ## Basic Information - **Project Name**: scrapy_for_video - **Description**: No description available - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-11-12 - **Last Updated**: 2024-11-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 爬取国内各大视频网站的视频信息 ------------------------------ 本项目始于2018-12-12 欢迎诸位路过的朋友一起完善这个项目 视频信息:电视剧,电影,动漫等的各种信息(标题,发布时间,年份,所属区域,导演,演员等信息) 剧集信息:电视剧,动漫等的剧集信息(例如,《将夜》电视剧下每集的链接,即名称,以及片头,片尾时间等) 更新信息:由于很多电视剧,动漫还在更新中,所以需要定时不断监控这些视频是否有更新。 交流QQ群:962607223 欢迎开发者加入 ---------------------------------------- 有任何问题皆可加QQ群交流,或询问群主,我希望同各位一起学习,交流,公共完善这个项目。 使用说明 ---------------------------------------- git clone https://github.com/perfect-network/scrapy_for_video.git cd scrapy_for_video 修改tv20181209/spiders/qq_spider.py 中的mysql信息 再将mysql.sql导入到数据库 然后保证已经将scrapy, math, json, requests, mysql-connector(若安装失败请百度,或私聊), time 这些库导入即可。。 scrapy crawl qq #执行腾讯视频的爬虫 将要爬取的站点 ------------------------------- | 站点 | 链接 | 视频信息 | 剧集信息 | 更新信息 | | :--: | :-- | :-----: | :-----: | :-----: | | **腾讯视频** | |✔|✔|✖| | **爱奇艺** | |✖|✖|✖| | **优酷视频** | |✖|✖|✖| | **芒果TV** | |✖|✖|✖| | **PPTV** | |✖|✖|✖| | **乐视TV** | |✖|✖|✖| | **搜狐视频** | |✖|✖|✖| | **咪咕视频** | |✖|✖|✖| | **华数TV** | |✖|✖|✖| | **风行TV** | |✖|✖|✖| | **暴风视频** | |✖|✖|✖| | **BiliBili** | |✖|✖|✖| | **CCTV** | |✖|✖|✖| | **看看视频** | |✖|✖|✖| | **1905视频** | |✖|✖|✖| 自问自答 ---------------------------------------- Q:怎么保证信息的完整性,不会漏缺 A:一般来说,没有成功入库的原因是在拼凑信息时停滞的,那我们只需要在那之前,将那个ID先储存于数据库,等这个ID的信息成功存于mysql再把那个ID去掉,或改变状态