# aigc

**Repository Path**: cuihuimin/aigc

## Basic Information

- **Project Name**: aigc
- **Description**: aigc项目代码，添加AI语音功能及分析体检报告功能
- **Primary Language**: Unknown
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-06-19
- **Last Updated**: 2024-06-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

使用`vue+springboot+MySQL`技术栈，用户上传体检报告的照片或者PDF，软件自动使用OCR功能提取文字，然后将内容输入大模型中，通过模型分析，得出体检报告的分析及养生建议，并且可以将体检报告的分析内容导出为PDF。

<h3>技术说明

为了实现OCR识别功能，使用`Tesseract.js`在浏览器离线识别图片中的文字。
但`tesseract.js`只能识别图片，为支持`tesseract.js`识别PDF，使用了依赖库`pdfjs-dist`，此依赖库可以将PDF转换成图片，这样就解决了`tesseract.js`不能识别PDF的问题。


在使用时需要额外安装 `tesseract.js` 和 `pdfjs-dist` 。使用下面的命令就可以安装。

```bash
npm install tesseract.js
npm install pdfjs-dist
```

 `tesseract.js`本身只支持识别英文，如果需要识别其他语言，需要额外引入语言包。
 为了支持中文识别，已经引入中文语言包`chi_sim.traineddata`，无需用户操作。

<h3>尚未解决的问题

* 在OCR识别成功后可以点击***显示OCR识别内容***按钮用来显示OCR识别到的内容，但是当第二次OCR识别时，显示的内容必须重新点击按钮才会刷新。
* 在OCR识别成功后会将结果发给后端，后端返回的结果会在前端显示，当后端返回内容过长时，前端无法正常显示。