# panhub_crawler

**Repository Path**: qianchilang/panhub_crawler

## Basic Information

- **Project Name**: panhub_crawler
- **Description**: 批量爬取网站panhub.fun的网盘链接
- **Primary Language**: Python
- **License**: MulanPSL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2024-10-30
- **Last Updated**: 2024-11-22

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# panhub_crawler

#### 介绍
批量爬取网站panhub.fun的网盘链接，并提供数据库存储、查询和管理功能。

#### 软件架构
- Python 3.10.11
- Streamlit: 用于构建Web界面
- BeautifulSoup4: 用于解析HTML
- SQLite: 用于数据存储
- Pandas: 用于数据处理和CSV导出
- Requests: 用于发送HTTP请求

#### 安装教程

一键整合包下载：

#### 使用说明
1. 在项目目录下运行 start.bat 启动


​	在浏览器中打开显示的本地URL（通常是 http://localhost:8501）


3. 使用界面提供的功能：
- 单个页面爬取：输入特定URL进行爬取示例：https://panhub.fun/d/8964.html
  - 网址获取可通过网站地图https://panhub.fun/sitemap.xml

- 批量爬取：选择起始和结束页面范围进行批量爬取
- 数据库查询：根据关键词和日期范围查询已爬取的链接
- 删除记录：通过ID或URL删除数据库中的特定记录

#### 注意事项
- 请遵守网站的使用条款和爬虫政策
- 仅支持网站https://panhub.fun
- 批量爬取时请控制爬取频率，避免对目标网站造成过大负担
- 爬取的数据存储在本地SQLite数据库中，文件名为 `quark_links.db`

#### 参与贡献
欢迎提交问题和改进建议。如果你想贡献代码，请先开issue讨论你想改变的内容。

1.  Fork 本仓库
2.  新建 Feat_xxx 分支
3.  提交代码
4.  新建 Pull Request