# error_recognize

**Repository Path**: mumatuan/error_recognize

## Basic Information

- **Project Name**: error_recognize
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2021-03-25
- **Last Updated**: 2021-03-25

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# error_recognize
基于弱监督训练的中文错别字识别，只需加入正确的文本就行，例如人民日报、新华社这种置信度高的

# 运行方式
#python3+tensorflow1.14
```
cd data && sh generate_data.sh && cd .. && sh run.sh
```
#如果有提示python包问题，自行pip install即可

# 数据
只需把正确文本按行放到./data/samples文件即可，程序会自动分句并生成错误文本
基于正确文本随机生成错别字，保证同音字、近音字、常见字、词组出现的频率更高，更接近真实的错误

# 效果
- 用了千万级别的数据，识别正常文本，误报率50%以内，新词比较多的名字比较诡异的(游戏，娱乐)这种误报比较多，精准就只有10%，加入相关的数据就能改善
- 训练好的模型下载使用参见[https://blog.csdn.net/weixin_39422563/article/details/106957654](https://blog.csdn.net/weixin_39422563/article/details/106957654)