# panhub_crawler **Repository Path**: qianchilang/panhub_crawler ## Basic Information - **Project Name**: panhub_crawler - **Description**: 批量爬取网站panhub.fun的网盘链接 - **Primary Language**: Python - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2024-10-30 - **Last Updated**: 2024-11-22 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # panhub_crawler #### 介绍 批量爬取网站panhub.fun的网盘链接,并提供数据库存储、查询和管理功能。 #### 软件架构 - Python 3.10.11 - Streamlit: 用于构建Web界面 - BeautifulSoup4: 用于解析HTML - SQLite: 用于数据存储 - Pandas: 用于数据处理和CSV导出 - Requests: 用于发送HTTP请求 #### 安装教程 一键整合包下载: #### 使用说明 1. 在项目目录下运行 start.bat 启动 ​ 在浏览器中打开显示的本地URL(通常是 http://localhost:8501) 3. 使用界面提供的功能: - 单个页面爬取:输入特定URL进行爬取示例:https://panhub.fun/d/8964.html - 网址获取可通过网站地图https://panhub.fun/sitemap.xml - 批量爬取:选择起始和结束页面范围进行批量爬取 - 数据库查询:根据关键词和日期范围查询已爬取的链接 - 删除记录:通过ID或URL删除数据库中的特定记录 #### 注意事项 - 请遵守网站的使用条款和爬虫政策 - 仅支持网站https://panhub.fun - 批量爬取时请控制爬取频率,避免对目标网站造成过大负担 - 爬取的数据存储在本地SQLite数据库中,文件名为 `quark_links.db` #### 参与贡献 欢迎提交问题和改进建议。如果你想贡献代码,请先开issue讨论你想改变的内容。 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request