# DeepSeek-OCR-2-Studio-Web **Repository Path**: sclarkca/DeepSeek-OCR-2-Studio-Web ## Basic Information - **Project Name**: DeepSeek-OCR-2-Studio-Web - **Description**: No description available - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-01-30 - **Last Updated**: 2026-01-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README

🔮 DeepSeek-OCR-2-Studio-Web

基于 DeepSeek-OCR 2 的智能文档解析工作室

English | 中文
--- ## ⚡ 项目简介 **DeepSeek-OCR-2-Studio-Web** 是一个基于 DeepSeek-OCR 2 模型的多模态文档解析工具,采用 React 前端 + FastAPI 后端架构。 ![项目图片](assets/项目图片.png) 本工具能够高效处理 PDF 文档和图像,提供强大的 OCR 识别能力,支持多语言文本识别、表格解析、图表分析等多种功能。 --- ## 🧠 DeepSeek-OCR 2 技术亮点 ### 核心理念:视觉因果流 (Visual Causal Flow) 传统 VLM 采用固定的"光栅扫描"顺序处理图像,而 DeepSeek-OCR 2 模拟人类视觉的**因果流**——根据语义逻辑智能决定阅读顺序,在编码器阶段对视觉 Token 进行**动态重排序**。 ### 架构创新:DeepEncoder V2 | 特性 | 说明 | |------|------| | **LLM 架构编码器** | 用 Qwen2-0.5B 替换 CLIP,赋予编码器更强的逻辑推理能力 | | **双流注意力机制** | 视觉 Token 保持双向注意力,因果流 Query 采用因果注意力 | | **级联因果推理** | 编码器负责视觉逻辑排序,解码器负责内容生成 | ### 四大升级亮点 - 🎯 **阅读顺序理解提升**:R-order Edit Distance 从 0.085 降至 **0.057** - ⚡ **极高 Token 压缩率**:视觉 Token 控制在 **256~1120**(竞品通常 >6000) - 📊 **综合性能领先**:OmniDocBench v1.5 得分 **91.09%**(提升 3.73%) - 🔧 **生产鲁棒性增强**:PDF 重复率从 3.69% 降至 **2.88%** --- ## ✨ 核心功能 - **多格式文档解析**:支持 PDF、图片等多种格式上传解析 - **智能 OCR 识别**:基于 DeepSeek-OCR 2 模型,提供高精度文本识别 - **布局分析**:智能识别文档布局结构,精准提取内容排版 - **多语言支持**:支持中英文等多种语言的文本识别 - **表格图表解析**:专业的表格识别与图表数据提取功能 - **专业领域图纸识别**:支持各类专业领域图纸的语义识别 - **数据可视化解析**:支持数据分析可视化图表的逆向解析 - **Markdown 转换**:将 PDF 内容转换为结构化的 Markdown 格式 --- ## 👀 项目演示
**PDF 文档解析 - 支持图片、表格等复杂内容** 文档解析
| 多语种文本解析 | 图表表格解析 | |:---:|:---:| | 多语种文本解析 | 图表表格解析 |
| 专业领域图纸识别
(CAD、流程图、装修图) | 数据可视化图表
逆向解析 | |:---:|:---:| | CAD图纸语义识别 | 数据可视化图表逆向解析 |
--- ## 🚀 使用指南 ### 系统要求 ⚠️ **重要提示**: - **操作系统**:需要在 Linux 系统上运行 - **GPU 要求**:GPU ≥ 7 GB 显存(大图/多页 PDF 建议 16–24 GB) - **兼容性说明**:RTX 50 系列 GPU 目前暂不兼容,请使用其他 GPU 型号 - **Python 版本**:3.10–3.12(推荐 3.10/3.11) - **CUDA 版本**:11.8 或 12.1/12.2(需与 GPU 驱动匹配) - **PyTorch**:需安装与 CUDA 匹配的预编译版本 ### 快速启动 #### 方式一:一键脚本启动(推荐) ```bash # 安装模型权重和环境依赖 bash install.sh # 启动服务 bash start.sh ``` #### 方式二:手动安装与运行 ##### 第一步:模型权重下载 从 **Hugging Face** 或 **ModelScope** 下载 DeepSeek-OCR 2 模型权重: ```bash pip install modelscope mkdir ./deepseek-ocr-2 modelscope download --model deepseek-ai/DeepSeek-OCR-2 --local_dir ./deepseek-ocr-2 ``` ##### 第二步:运行环境配置 创建虚拟环境: ```bash conda create -n deepseek-ocr python=3.12.9 -y conda activate deepseek-ocr ``` 安装 PyTorch: ```bash pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118 ``` 安装 vLLM: ```bash pip install ./packages/vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl ``` 安装项目依赖: ```bash cd ./DeepSeek-OCR/ pip install -r requirements.txt ``` 安装 flash-attn 加速库(可选): ```bash pip install flash-attn==2.7.3 --no-build-isolation ``` 配置模型路径,在项目根目录创建 `.env` 文件: ``` MODEL_PATH=/your/path/to/deepseek-ocr-2 ``` ##### 第三步:启动后端服务 ```bash cd backend uvicorn main:app --host 0.0.0.0 --port 9002 ``` ##### 第四步:启动前端服务 ```bash cd frontend npm install npm run dev ``` 启动成功后,在浏览器访问前端地址即可使用。 --- ## 🏗️ 项目结构 ``` DeepSeek-OCR-2-Studio-Web/ ├── frontend/ # React 前端 ├── backend/ # FastAPI 后端 ├── workspace/ # 工作目录(上传文件、解析结果) ├── install.sh # 一键安装脚本 ├── start.sh # 一键启动脚本 └── .env # 环境配置(MODEL_PATH) ``` --- ## 🙈 参与贡献 欢迎通过 GitHub PR 提交或 Issues 参与项目贡献,我们非常欢迎任何形式的贡献,包括功能改进、Bug 修复或文档优化。 --- ## 😎 技术交流 扫码添加小助手,回复 "DeepSeekOCR" 加入技术交流群,与其他小伙伴一起交流学习。
技术交流群二维码
--- ## 📚 参考资料 - [DeepSeek-OCR 2 技术报告](https://github.com/deepseek-ai/DeepSeek-OCR) - [OmniDocBench 基准测试](https://github.com/opendatalab/OmniDocBench) ---
Made with ❤️ by 赋范空间