# data_pre

**Repository Path**: littlenight/data_pre

## Basic Information

- **Project Name**: data_pre
- **Description**: 数据预处理过程
- **Primary Language**: Scala
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-03-22
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# data_pre
数据预处理过程

 1，从原始数据库读取邮件主题和内容（邮件内容是html的格式）
 
 2，解析html 格式的内容，拿到邮件正文 ，
 
 3，邮件的语言进行检测，
 
 4，修改邮件语言的检测错误的结果
 
 5，预处理好的数据导出成txt 格式
 
  格式如下 邮件主题 # 邮件内容
  
  示例如下： Others # not received order
  
  spark 在window 写入文件存在问题，这个数据建议从数据库直接导出   
  
  
  算法模型如下： 这个部分在python 代码里面实现
  
    根据上面的预处理好的模型创建一个分类的模型，实现根据邮件内容自动分类出属于哪个主题
    
    分类模型构建如下：
                   1，邮件内容分词
                   2，标点符号处理
                   3，词编码
                   4，输入编码后的数据
                   
                   5，把数据喂给训练好的模型 ###提前构建模型，如果采用java需要自己手动进行解码和编码 
                   
                   6，模型输出结果解码
                   7，返回输出结果
                    
                    
                    TODO 研究这个模型
                  https://github.com/brightmart/text_classification.git   
                  
                  
                  
                  https://github.com/brightmart/bert_language_understanding