# DeepSeek-OCR-2-Studio-Web **Repository Path**: sclarkca/DeepSeek-OCR-2-Studio-Web ## Basic Information - **Project Name**: DeepSeek-OCR-2-Studio-Web - **Description**: No description available - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-01-30 - **Last Updated**: 2026-01-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README

🔮 DeepSeek-OCR-2-Studio-Web

基于 DeepSeek-OCR 2 的智能文档解析工作室

English | 中文

--- ## ⚡ 项目简介 **DeepSeek-OCR-2-Studio-Web** 是一个基于 DeepSeek-OCR 2 模型的多模态文档解析工具，采用 React 前端 + FastAPI 后端架构。 ![项目图片](assets/项目图片.png) 本工具能够高效处理 PDF 文档和图像，提供强大的 OCR 识别能力，支持多语言文本识别、表格解析、图表分析等多种功能。 --- ## 🧠 DeepSeek-OCR 2 技术亮点 ### 核心理念：视觉因果流 (Visual Causal Flow) 传统 VLM 采用固定的"光栅扫描"顺序处理图像，而 DeepSeek-OCR 2 模拟人类视觉的**因果流**——根据语义逻辑智能决定阅读顺序，在编码器阶段对视觉 Token 进行**动态重排序**。 ### 架构创新：DeepEncoder V2 | 特性 | 说明 | |------|------| | **LLM 架构编码器** | 用 Qwen2-0.5B 替换 CLIP，赋予编码器更强的逻辑推理能力 | | **双流注意力机制** | 视觉 Token 保持双向注意力，因果流 Query 采用因果注意力 | | **级联因果推理** | 编码器负责视觉逻辑排序，解码器负责内容生成 | ### 四大升级亮点 - 🎯 **阅读顺序理解提升**：R-order Edit Distance 从 0.085 降至 **0.057** - ⚡ **极高 Token 压缩率**：视觉 Token 控制在 **256~1120**（竞品通常 >6000） - 📊 **综合性能领先**：OmniDocBench v1.5 得分 **91.09%**（提升 3.73%） - 🔧 **生产鲁棒性增强**：PDF 重复率从 3.69% 降至 **2.88%** --- ## ✨ 核心功能 - **多格式文档解析**：支持 PDF、图片等多种格式上传解析 - **智能 OCR 识别**：基于 DeepSeek-OCR 2 模型，提供高精度文本识别 - **布局分析**：智能识别文档布局结构，精准提取内容排版 - **多语言支持**：支持中英文等多种语言的文本识别 - **表格图表解析**：专业的表格识别与图表数据提取功能 - **专业领域图纸识别**：支持各类专业领域图纸的语义识别 - **数据可视化解析**：支持数据分析可视化图表的逆向解析 - **Markdown 转换**：将 PDF 内容转换为结构化的 Markdown 格式 --- ## 👀 项目演示

**PDF 文档解析 - 支持图片、表格等复杂内容**

| 多语种文本解析 | 图表表格解析 | |:---:|:---:| |

--- ## 🚀 使用指南 ### 系统要求 ⚠️ **重要提示**： - **操作系统**：需要在 Linux 系统上运行 - **GPU 要求**：GPU ≥ 7 GB 显存（大图/多页 PDF 建议 16–24 GB） - **兼容性说明**：RTX 50 系列 GPU 目前暂不兼容，请使用其他 GPU 型号 - **Python 版本**：3.10–3.12（推荐 3.10/3.11） - **CUDA 版本**：11.8 或 12.1/12.2（需与 GPU 驱动匹配） - **PyTorch**：需安装与 CUDA 匹配的预编译版本 ### 快速启动 #### 方式一：一键脚本启动（推荐） ```bash # 安装模型权重和环境依赖 bash install.sh # 启动服务 bash start.sh ``` #### 方式二：手动安装与运行 ##### 第一步：模型权重下载从 **Hugging Face** 或 **ModelScope** 下载 DeepSeek-OCR 2 模型权重： ```bash pip install modelscope mkdir ./deepseek-ocr-2 modelscope download --model deepseek-ai/DeepSeek-OCR-2 --local_dir ./deepseek-ocr-2 ``` ##### 第二步：运行环境配置创建虚拟环境： ```bash conda create -n deepseek-ocr python=3.12.9 -y conda activate deepseek-ocr ``` 安装 PyTorch： ```bash pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118 ``` 安装 vLLM： ```bash pip install ./packages/vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl ``` 安装项目依赖： ```bash cd ./DeepSeek-OCR/ pip install -r requirements.txt ``` 安装 flash-attn 加速库（可选）： ```bash pip install flash-attn==2.7.3 --no-build-isolation ``` 配置模型路径，在项目根目录创建 `.env` 文件： ``` MODEL_PATH=/your/path/to/deepseek-ocr-2 ``` ##### 第三步：启动后端服务 ```bash cd backend uvicorn main:app --host 0.0.0.0 --port 9002 ``` ##### 第四步：启动前端服务 ```bash cd frontend npm install npm run dev ``` 启动成功后，在浏览器访问前端地址即可使用。 --- ## 🏗️ 项目结构 ``` DeepSeek-OCR-2-Studio-Web/ ├── frontend/ # React 前端 ├── backend/ # FastAPI 后端 ├── workspace/ # 工作目录（上传文件、解析结果） ├── install.sh # 一键安装脚本 ├── start.sh # 一键启动脚本 └── .env # 环境配置（MODEL_PATH） ``` --- ## 🙈 参与贡献欢迎通过 GitHub PR 提交或 Issues 参与项目贡献，我们非常欢迎任何形式的贡献，包括功能改进、Bug 修复或文档优化。 --- ## 😎 技术交流扫码添加小助手，回复 "DeepSeekOCR" 加入技术交流群，与其他小伙伴一起交流学习。

--- ## 📚 参考资料 - [DeepSeek-OCR 2 技术报告](https://github.com/deepseek-ai/DeepSeek-OCR) - [OmniDocBench 基准测试](https://github.com/opendatalab/OmniDocBench) ---

_{Made with ❤️ by 赋范空间}