# Text-Classifier

**Repository Path**: lijiacheng29/text-classifier

## Basic Information

- **Project Name**: Text-Classifier
- **Description**: 🧐 - Textual Material Classifier
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2022-06-26
- **Last Updated**: 2022-07-01

## Categories & Tags

**Categories**: Uncategorized

**Tags**: Deep-learning

## README

# Text-Classifier

#### 介绍
🧐 - Textual Material Classifier

#### 软件架构
```
Text-Classifier
├─naive_bayes
├─svm_classifier
├─preprocess
├─resources
├─.gitignore
├─main.py
└─README.md
```

#### 安装教程

1.  进入项目目录文件夹，在终端执行 `pip install .` 创建venv
2.  或者创建 Conda 环境

#### 使用说明

1. 执行 `main.py` 文件中的程序入口
2. 等待推理，得到不同模型的对比分类结果

#### 实验说明

文本数据的分类与分析

##### 实验目的

* 掌握数据预处理的方法，对训练集数据进行预处理； 
* 掌握文本建模的方法，对语料库的文档进行建模； 
* 掌握分类算法的原理，基于有监督的机器学习方法，训练文本分类器； 
* 利用学习的文本分类器，对未知文本进行分类判别； 
* 掌握评价分类器性能的评估方法。 

##### 实验类型

数据挖掘算法的设计与编程实现。 

##### 实验要求

* 文本类别数：10类；
* 训练集文档数：>=50000篇；每类平均5000篇。 
* 测试集文档数：>=50000篇；每类平均5000篇。 
* 分组完成实验，组员数量<=3，个人实现可以获得实验加分。 

##### 实验内容

利用分类算法实现对文本的数据挖掘，主要包括：
1. 语料库的构建，主要包括利用爬虫收集Web文档等； 
2. 语料库的数据预处理，包括文档建模，如去噪，分词，建立数据字典，使用词袋模型或主题模型表达文档等；（注：使用主题模型，如LDA可以获得实验加分） 
3. 选择分类算法（朴素贝叶斯/SVM/其他等），训练文本分类器，理解所选的分类算法的建模原理、实现过程和相关参数的含义； 
4. 对测试集的文本进行分类 
5. 对测试集的分类结果利用正确率和召回率进行分析评价：计算每类正确率、召回率，计算总体正确率和召回率，以及F-score。 
 
##### 实验验收

1. 编写实验报告，实验报告内容必须包括对每个阶段的过程描述，以及实验结果的截图展示。 
2. 以线上方式验收实验。 
3. 实验完成时间6月20日.