1 Star 0 Fork 0

Lance/scan_pic

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
克隆/下载
markdown 1.37 KB
一键复制 编辑 原始数据 按行查看 历史
497208709@qq.com 提交于 2025-04-04 22:45 +08:00 . 创建项目
# 智能文档识别系统需求文档
**版本**: 2.1
**最后更新**: 2024年3月15日
---
## 1. 项目概述
开发基于Python的多模态文档识别系统,集成传统OCR与Claude大语言模型,实现高精度文字识别与格式还原。核心功能包含:
- 多格式文档图像智能解析
- 混合OCR+LLM的识别架构
- 结构化数据输出
- 云端/本地混合部署
---
## 2. 功能需求
### 2.1 核心功能模块
| 模块 | 功能描述 | 技术指标 |
|------|----------|----------|
| 智能上传 | 支持扫描件/照片/PDF输入 | - 最大分辨率: 4096x4096<br>- 支持多页PDF拆分 |
| 多模型路由 | 动态选择Tesseract/PaddleOCR/Claude | 基于图像质量自动切换模型 |
| 格式重构 | 保留原始版面特征 | - 段落间距误差≤3px<br>- 表格识别准确率≥90% |
| 语义校正 | Claude模型后处理 | - 语义纠错率≥85%<br>- 支持公式推导 |
### 2.2 Claude集成方案
```python
# 混合处理流程
def hybrid_processing(image):
# 阶段1: 基础OCR识别
raw_text = paddleocr.detect(image)
# 阶段2: Claude格式重构
prompt = f"""请将以下OCR结果重构为结构化文档:
{raw_text}
要求:
1. 保留原始段落和表格结构
2. 修正明显的识别错误
3. 用markdown格式输出"""
return claude_api.call(prompt)
Loading...
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/lance521/scan_pic.git
git@gitee.com:lance521/scan_pic.git
lance521
scan_pic
scan_pic
master

搜索帮助