# LJP **Repository Path**: luweizheng/ljp ## Basic Information - **Project Name**: LJP - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-03-01 - **Last Updated**: 2022-03-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Legal Judgement Prediction ## 依赖 主要依赖`torch`、HuggingFace `transformers` 和 HuggingFace `accelerate`。 `accelerate` 库需要使用`accelerate config` 命令来创建一个配置,比如设置使用FP16,机器数量为1表示单机,进程数量(processes in total)为一台机器多少张卡,生成的配置存放在 `~/.cache/huggingface/accelerate/default_config.yaml`。 命令行中使用 `accelerate launch train.py` 启动训练进程。也可以使用其他配置,使用 `accelerate launch --config_file ~/.cache/huggingface/accelerate/one_gpu_config.yaml` 来使用不同的配置文件。 ## 数据 数据、模型、词向量在 `data` 目录,可以拷贝或者软连接到该目录。 `laic_raw` 文件夹下为LAIC比赛格式的原始文件。 ## 文件 `preprocess` 下为数据预处理代码。其他文件夹为 PyTorch 模型训练代码。 `dataset` 文件夹为数据集读取目录,支持不同的数据集,例如CAIL和LAIC格式,主要逻辑是将数据读取,json解析,得到一条样本。 `formatter` 文件夹为一条样本的后处理逻辑,比如如何从文本转化为词典中的ID等。 `model` 文件夹为模型。 `config` 为配置文件目录,所有配置文件放于此。以上模块都可以新添加类,`config` 中如果想使用某个新添加的类,需要先将新添加的类需要注册到每个模块的 `__init__.py` 里。 `tools` 为PyTorch训练逻辑,类似TF的 `fit()` 功能,打印各个指标等。 ## 训练启动脚本 启动脚本在 `scripts` 目录。