# get-email-by-tieba **Repository Path**: android_ios_test/get-email-by-tieba ## Basic Information - **Project Name**: get-email-by-tieba - **Description**: 用于抓取贴吧发帖中的手机号和电子邮箱的一个爬虫 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2020-12-02 - **Last Updated**: 2021-01-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # get-email-by-tieba 用于抓取贴吧发帖中的手机号和电子邮箱的一个爬虫 ### 技术栈:Python,MySQL ### 开发时间:2015.7 ### 开发规模:1人,1天。 ## 项目简介: 一个python写的多线程爬虫,可以对指定贴吧或者指定帖子主题的发帖内容中的手机号,邮箱进行多线程抓取,并持久化存储在数据库中。 ## 项目优点: 多线程抓取,性能高效。模块化开发,比如说数据持久化函数可以替换成其他方式存储,数据过滤可以替换成别的正则表达式,自定义抓取需要的内容。 ## 项目缺点: 代码不够优雅,容错不够,未设置超时重试,错误重试机制,如果网络环境不好,或者抓取的目标网站有反爬虫策略,那么该爬虫将会无法正常工作。 ## 项目总结: 自己看了一些写得很好,很规范的专业爬虫,发现自己离他们的距离还是很遥远。写好一个专业级的项目不容易。