# aigc **Repository Path**: cuihuimin/aigc ## Basic Information - **Project Name**: aigc - **Description**: aigc项目代码,添加AI语音功能及分析体检报告功能 - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-06-19 - **Last Updated**: 2024-06-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 使用`vue+springboot+MySQL`技术栈,用户上传体检报告的照片或者PDF,软件自动使用OCR功能提取文字,然后将内容输入大模型中,通过模型分析,得出体检报告的分析及养生建议,并且可以将体检报告的分析内容导出为PDF。

技术说明 为了实现OCR识别功能,使用`Tesseract.js`在浏览器离线识别图片中的文字。 但`tesseract.js`只能识别图片,为支持`tesseract.js`识别PDF,使用了依赖库`pdfjs-dist`,此依赖库可以将PDF转换成图片,这样就解决了`tesseract.js`不能识别PDF的问题。 在使用时需要额外安装 `tesseract.js` 和 `pdfjs-dist` 。使用下面的命令就可以安装。 ```bash npm install tesseract.js npm install pdfjs-dist ``` `tesseract.js`本身只支持识别英文,如果需要识别其他语言,需要额外引入语言包。 为了支持中文识别,已经引入中文语言包`chi_sim.traineddata`,无需用户操作。

尚未解决的问题 * 在OCR识别成功后可以点击***显示OCR识别内容***按钮用来显示OCR识别到的内容,但是当第二次OCR识别时,显示的内容必须重新点击按钮才会刷新。 * 在OCR识别成功后会将结果发给后端,后端返回的结果会在前端显示,当后端返回内容过长时,前端无法正常显示。