# weibo_Hot_Search **Repository Path**: writeup/weibo_Hot_Search ## Basic Information - **Project Name**: weibo_Hot_Search - **Description**: 微博爬虫:每天定时爬取微博热搜榜的内容,留下互联网人的记忆。 - **Primary Language**: Python - **License**: GPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2021-03-24 - **Last Updated**: 2025-02-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Weibo_Hot_Search 都说互联网人的记忆只有七秒钟,可我却想记录下这七秒钟的记忆。 项目已部署在服务器,会在每天的上午 11 点和晚上11 点定时爬取微博的热搜榜内容,保存为 Markdown 文件格式,然后上传备份到 GitHub 你可以随意[下载查看](https://github.com/Writeup007/weibo_Hot_Search_Data)。 不要问我为什么选择 11 这两个时间点,因为个人总感觉这两个时间点左右会有大事件发生。 不管微博热搜上是家事国事天下事,亦或是娱乐八卦是非事,我只是想忠实的记录下来... # 运行环境 Python 3.0 + ``` pip install requests pip install lxml pip install bs4 ``` 或者执行 ``` pip install -r requirements.txt ``` 进行安装运行所需的环境 # 运行 * 请确保你已准备好所需的运行环境 * 运行方法(任选一种) 1. 在仓库目录下运行 ```weibo_Hot_Search_bs4.py```(新增) 或 ```weibo_Hot_Search.py``` 2. 在cmd中执行 ```python weibo_Hot_Search_bs4.py```(新增) 或 ```python weibo_Hot_Search.py``` * 自动运行:利用 Windows 或 Linux 的任务计划程序实现即可 ## scrapy版本运行 > 项目的结构如下 ```cmd >├── hotweibo │   ├── __init__.py │   ├── items.py │   ├── middlewares.py │   ├── pipelines.py │   ├── __pycache__ │   │   ├── __init__.cpython-38.pyc │   │   ├── items.cpython-38.pyc │   │   ├── pipelines.cpython-38.pyc │   │   └── settings.cpython-38.pyc │   ├── settings.py │   ├── spiders │   │   ├── hot.py │   │   ├── __init__.py │   │   └── __pycache__ │   │   ├── hot.cpython-38.pyc │   │   └── __init__.cpython-38.pyc │   └── TimedTask.py # 可以运行此文件直接启动爬虫 └── scrapy.cfg ``` * 请确保准备好 MongoDB 环境和 Scrapy 环境 + 推荐使用 Docker 安装 MongoDB + 数据库和集合不需要预先创建 * TimedTask.py 用于执行定时爬取,默认为每分钟爬取一次 + 在linux下可以在TimedTask脚本所在目录执行 ```bash nohup python Timer.py >/dev/null 2>&1 & ``` + 具体用法可参考[这里](https://www.jianshu.com/p/4041c4e6e1b0) # 生成文件 运行结束后会在当前文件夹下生成以时间命名的文件夹,如下: ``` 2019年11月08日 ``` 并且会生成以具体小时为单位的具体时间命名的 Markdown 文件,如下: ``` 2019年11月08日23点.md ``` # 接口来源 使用的是新浪微博的公开热搜榜单 链接:https://s.weibo.com/top/summary # 更新日志 2020年08月08日: 1.将原有保存的 Markdown 文件数据进行整理,保存至新开仓库 [weibo_Hot_Search_Data](https://github.com/Writeup007/weibo_Hot_Search_Data) 此仓库以后用作代码更新及保存,不再在此存放数据内容。 # 声明 本项目的所有数据来源均来自 **新浪微博** 数据内容及其解释权归新浪微博所有。 # License GNU General Public License v3.0