# wechat-ai-assistant **Repository Path**: cherrydady/wechat-ai-assistant ## Basic Information - **Project Name**: wechat-ai-assistant - **Description**: 这是一个基于Python的微信公众号内容创作助手,主要功能包括: - 自动抓取科技网站内容 - 使用豆包大模型进行内容改写 - 自动生成微信排版 - 定时发布到微信公众号 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2025-01-22 - **Last Updated**: 2025-07-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 微信AI助手项目 ## 项目简介 这是一个基于Python的微信AI助手项目,主要功能包括: - 虎嗅网文章抓取 - 内容分析与处理 - 微信文章自动排版 - 数据存储与管理 ## 项目结构 ``` wechat-ai-assistant/ ├── src/ # 源代码目录 │ ├── crawler/ # 爬虫模块 │ ├── processor/ # 内容处理模块 │ ├── designer/ # 排版设计模块 │ ├── database/ # 数据库模块 │ └── gui/ # 图形界面模块 ├── config/ # 配置文件 ├── assets/ # 静态资源 ├── tests/ # 测试代码 └── requirements.txt # 依赖文件 ``` ## 爬虫模块特性 ### 虎嗅爬虫功能 - 支持虎嗅网文章列表和详情抓取 - 自动获取huxiu_hash参数 - 完善的异常处理机制 - 请求间隔控制 - 随机User-Agent - 代理池支持 - 自动重试机制(默认3次) - 反爬检测(403状态码和验证码识别) ### 反爬策略 1. 随机延迟:每次请求间隔1-3秒 2. 随机User-Agent:从配置文件中随机选择 3. 代理池:自动检测并选择可用代理 4. 指数退避重试:失败后等待时间按2^n递增 5. 动态huxiu_hash:自动获取最新hash值 ## 测试覆盖率 ```bash pytest --cov=src tests/ ``` 当前测试覆盖率:95% ## 快速开始 1. 安装依赖 ```bash pip install -r requirements.txt ``` 2. 配置API密钥 编辑`config/api_keys.yaml`文件,填写相应的API密钥 3. 配置代理池 编辑`config/proxies.yaml`文件,添加可用代理 4. 运行程序 ```bash python main.py ``` ## 贡献指南 1. Fork项目 2. 创建特性分支 (`git checkout -b feature/YourFeature`) 3. 提交更改 (`git commit -m 'Add some feature'`) 4. 推送到分支 (`git push origin feature/YourFeature`) 5. 创建Pull Request ## 注意事项 1. 请合理设置爬取频率,避免对目标网站造成过大压力 2. 建议使用代理池以避免IP被封禁 3. 定期更新User-Agent列表 4. 关注虎嗅网的反爬策略变化,及时调整爬虫逻辑 ## 更新日志 ### 2025-02-20 - 添加.gitignore文件,排除Python缓存文件、日志文件等 - 更新项目文件,包括: - 添加36kr_config.yaml配置文件 - 添加kr36_crawler.py爬虫文件 - 添加test_crawlers.py测试文件 - 添加test_api.py测试文件 - 添加test_36kr_crawler.py测试文件