# python-spider

**Repository Path**: LewisJoe/python-spider

## Basic Information

- **Project Name**: python-spider
- **Description**: python爬虫的学习
- **Primary Language**: Python
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2019-09-22
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# python-spider

#### 介绍
python爬虫的学习

张晓波 15027900535

- 思考

- 总结

- 重复

## 数据分析

### 模块

- numpy

- pandas

- matplotlib

### 案例

- 人口普查数据分析

# 01.爬虫理论

- 什么是爬虫
  - 通过编写程序，模拟浏览器上网，让其去互联网上去获取数据的过程
- 爬虫的分类
  - 通用爬虫：获取一整张页面数据
  - 聚焦爬虫：根据指定的需求获取页面中指定的局部数据
  - 增量式爬虫：用来监测网站数据更新的情况，爬取网站最新更新出来的数据

- 反爬机制：网站可以采取相关的技术手段或者策略阻止爬虫程序进行网站数据的爬取
- 反反爬策略：让爬虫程序通过破解反爬机制获取数据

- robots协议：防君子，不防小人
- http协议：client和server进行数据交互的形式
- http使用到的头信息：
  - User-Agent：请求载体的身份标识
  - Connection：keep-alive\close
  - Content-Type：响应头信息
- https：安全的http协议
  - 对称密钥加密：请求传输的过程当中，密文和密钥是同时传输的
  - 非对称密钥加密：服务器端制定加密规则，将公钥发送给客户端，客户端加密后，将加密后的信息发送给服务器端
  - 证书密钥加密ssl

## 02.requests模块的使用

- pip install requests
- 作用：就是用来模拟浏览器上网的
- 特点：简单，高效
- old：urllib
- requests模块的使用流程：
  - 指定url
  - 发起请求
  - 获取响应数据
  - 持久化存储
- 处理get请求的参数
- 需求：网页采集器
- 反爬机制：UA检测
- 反反爬策略：UA伪装
- 爬取任意城市对应的肯德基餐厅的位置信息
- 动态加载的数据
- 爬取豆瓣电影中更多的电影详情数据
- 化妆品生产许可信息查询管理平台详细信息http://125.35.6.84:81/xk/
-