# 基于Transformer的中英翻译项目实践 **Repository Path**: Shizhao_Cheung/translatorproject ## Basic Information - **Project Name**: 基于Transformer的中英翻译项目实践 - **Description**: 国科大深度学习实验四-机器翻译,中译英 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-05-22 - **Last Updated**: 2025-08-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: Transformer, Python, PyTorch ## README # 中文->英文 机器翻译(Transformer)单文件脚本 本项目实现了一个基于Transformer的中文到英文翻译模型,包含完整的训练和测试流程。代码特点包括: - 自动断点续训功能 - 极简参数配置 - 完整的模型组件: - 自注意力机制 - 位置编码 - Transformer架构 - BLEU评估指标 ## 数据准备 需要准备以下数据文件: ``` ./data/translation/ TM-training-set/chinese.txt TM-training-set/english.txt Dev-set/dev.chinese.txt Dev-set/dev.english.txt Reference-for-evaluation/test.chinese.txt Reference-for-evaluation/test.english.txt ``` ## 使用方法 ### 训练模型 ```bash python ./demo/translation.py ``` ### 测试模型 ```bash python ./demo/translation.py --mode test ``` ## 输出 训练过程中的日志和模型文件会保存在: ``` ./outputs/cn2en_transformer/ ``` ## 主要依赖库 - PyTorch - Python标准库 - 第三方工具: - tqdm (进度条) - dataclasses - argparse ## 功能特点 - 自动从最新检查点续训 - 支持生成随机样本测试 - 完整的Vocab构建和序列处理工具 - 支持断点续训和模型保存 ## 模型结构 包含以下核心组件: - `Vocab`类:词汇表构建与编码/解码 - `ParallelTextDataset`:平行语料数据集 - `TransformerMT`:Transformer机器翻译模型 - `PositionalEncoding`:位置编码层 - `corpus_bleu_4`:BLEU评估指标实现