# LJP

**Repository Path**: luweizheng/ljp

## Basic Information

- **Project Name**: LJP
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2022-03-01
- **Last Updated**: 2022-03-09

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Legal Judgement Prediction

## 依赖

主要依赖`torch`、HuggingFace `transformers` 和 HuggingFace `accelerate`。

`accelerate` 库需要使用`accelerate config` 命令来创建一个配置，比如设置使用FP16，机器数量为1表示单机，进程数量(processes in total)为一台机器多少张卡，生成的配置存放在 `~/.cache/huggingface/accelerate/default_config.yaml`。 命令行中使用 `accelerate launch train.py` 启动训练进程。也可以使用其他配置，使用 `accelerate launch --config_file ~/.cache/huggingface/accelerate/one_gpu_config.yaml` 来使用不同的配置文件。

## 数据

数据、模型、词向量在 `data` 目录，可以拷贝或者软连接到该目录。

`laic_raw` 文件夹下为LAIC比赛格式的原始文件。

## 文件

`preprocess` 下为数据预处理代码。其他文件夹为 PyTorch 模型训练代码。

`dataset` 文件夹为数据集读取目录，支持不同的数据集，例如CAIL和LAIC格式，主要逻辑是将数据读取，json解析，得到一条样本。

`formatter` 文件夹为一条样本的后处理逻辑，比如如何从文本转化为词典中的ID等。

`model` 文件夹为模型。

`config` 为配置文件目录，所有配置文件放于此。以上模块都可以新添加类，`config` 中如果想使用某个新添加的类，需要先将新添加的类需要注册到每个模块的 `__init__.py` 里。

`tools` 为PyTorch训练逻辑，类似TF的 `fit()` 功能，打印各个指标等。

## 训练启动脚本

启动脚本在 `scripts` 目录。