# Data-for-LaTeX_OCR **Repository Path**: friogitee/Data-for-LaTeX_OCR ## Basic Information - **Project Name**: Data-for-LaTeX_OCR - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 3 - **Created**: 2020-03-20 - **Last Updated**: 2022-08-24 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # LaTeX OCR 的数据仓库 本数据仓库是专为 [LaTeX_OCR](https://github.com/LinXueyuanStdio/LaTeX_OCR) 及 [LaTeX_OCR_PRO](https://github.com/LinXueyuanStdio/LaTeX_OCR) 制作的数据,来源于 `https://zenodo.org/record/56198#.V2p0KTXT6eA` 以及 `https://www.isical.ac.in/~crohme/` 以及我们自己构建。 ## 数据集 本仓库暂时有 4 个数据集 1. `small` 是小数据集,测试用 2. `full` 是印刷体约 100k 的完整数据集。实际上略小于 100k,因为用 LaTeX 的抽象语法树剔除了很多不能渲染的 LaTeX。 3. `fullhand` 是手写体 100k 的完整数据集。实际上略小于 100k,理由同上。 4. `hand` 是手写体较小数据集,更符合人类在电子屏上的手写体。主要来源于 `CROHME`。我们用 LaTeX 的抽象语法树校验过了。 5. `chinese` 是混有中文的数学公式数据集。基于上面的 `full` 数据集,通过对 LaTeX 的抽象语法树指定节点替换为中文而构建。 ## 目录结构规范 每个数据集务必按以下结构来 ```shell small ├── formulas │ ├── train.formulas.norm.txt 规范化后的公式,以空格为分隔符直接构造字典 │ ├── test.formulas.norm.txt │ ├── val.formulas.norm.txt │ └── vocab.txt 根据公式文件 XXX.formulas.norm.txt 构建的字典 ├── images │ ├── images_train 图片目录 │ ├── images_test │ └── images_val ├── matching │ ├── train.matching.txt 样式为 , 的匹配文件 │ ├── test.matching.txt │ └── val.matching.txt ├── data.json ├── vocab.json └── README.md ``` 注意 `=='0.png', =='0' 对应 XXX.formulas.norm.txt 的行号,从 0 开始`