# crawler **Repository Path**: JackerKun/crawler ## Basic Information - **Project Name**: crawler - **Description**: requests+lxml爬虫,简单爬虫架构 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2019-03-13 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 使用requests+lxml爬取网站 ![crawler](https://raw.githubusercontent.com/shuizhubocai/crawler/v1.0/assets/screen.png) # 爬取的网站 - 爬取的是董伟明博客标题 # 爬虫包含6个模块 - url管理器 - download下载器 - parser解析器 - output导出数据 - crawler爬虫调度器 - useragent代理池 # 使用项目 - 建议使用virtualenv在独立的环境中运行项目 - pip3 install -r requirements.txt - python crawler.py # 注意事项 - lsxm版本使用3.5.0。目前高于3.5.0会不兼容 - python版本使用3.6.0 - pip3版本使用10.0.1