# pycaret_learn

**Repository Path**: huangjeake/pycaret_learn

## Basic Information

- **Project Name**: pycaret_learn
- **Description**: automl
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2021-05-28
- **Last Updated**: 2021-05-28

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

###  相关文档
*  [官方guide](https://pycaret.org/guide/)
*  [Github](https://github.com/pycaret/pycaret)
*  [Docs](https://pycaret.readthedocs.io/en/latest/)

### env
*  Python：3.7.3

###  code
*  classificate：分类
*  cluster：聚类
*  Anomaly Detection：异常检测
*  nlp
   *  [spacy](https://spacy.io/usage/models)
   *  [download en_core_web_sm](https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.2.0/en_core_web_sm-2.2.0.tar.gz)
*  regression：回归

### summary
*  集成学习：hart vote: 分类值；soft vote：分类概率
   *  简单集成：Voting：
      *  选举：将选择多的作为最终预测结果
      *  选举：每个预测多次，取平均值进行选举
      *  选举：按不同预测器的重要性分配不同的权重
      
      *  要求：好而不同（准确率，多样性）
         *  数据集：使用采样的方法得到不同的样本
         *  特征：对特征进行抽样
         *  算法：
            *  学习器算法不同
            *  相同算法不同参数
         *  输出
            *  将多分类转换为多个二分类
            *  将分类转化为回归等

   *  高级集成
      *  stacking：堆栈泛化：将各个预测器的预测值，整合和作为输入值，输入元学习者(留出集)/Blender，其输出作为最终预测结果
         *  [mlxtend](https://pypi.org/project/mlxtend/)：很方便的对**sklearn**模型完成stacking
      *  Bagging/Pasting：对每个预测器采用相同的算法，训练集的不同随机子集可以得到更全面的结果
         *  随机森林
      *  Boosting：指任何可以将学习能力弱者组合成学习能力强者的集成方法
         *  AdaBoost
         *  GBM
         *  XGBoost
         *  Light GBM