# macbert_error_correction **Repository Path**: sun-chenfeng-sily/macbert_error_correction ## Basic Information - **Project Name**: macbert_error_correction - **Description**: 使用Pycorrector实现了MacBERT模型的文本纠错,并自己训练数据进行开发 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 1 - **Created**: 2022-08-24 - **Last Updated**: 2024-12-08 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # macbert_error_correction #### 介绍 使用Pycorrector实现了MacBERT模型的文本纠错,并自己训练数据进行开发 #### 软件架构 软件架构说明 #### 安装教程 1. 本次数据预处理主要使用的库为pandas、读取word中数据的库为python-docx,请自行安装 2. 使用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas能显著加快安装的速度 #### 使用说明 1. 首先需要使用爬虫自行获取数据(如医学检测.txt格式 或者 论文检测.docx格式) 2. operation_data.py会自行将获取的数据根据一定的规则分成可供macbert使用的数据 3. 后续在macbert中的preprocess进行数据预处理,将划分好的txt数据转变成json数据