# DeepSeek-OCR-2-Studio-Web
**Repository Path**: sclarkca/DeepSeek-OCR-2-Studio-Web
## Basic Information
- **Project Name**: DeepSeek-OCR-2-Studio-Web
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-01-30
- **Last Updated**: 2026-01-30
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
🔮 DeepSeek-OCR-2-Studio-Web
基于 DeepSeek-OCR 2 的智能文档解析工作室
English | 中文
---
## ⚡ 项目简介
**DeepSeek-OCR-2-Studio-Web** 是一个基于 DeepSeek-OCR 2 模型的多模态文档解析工具,采用 React 前端 + FastAPI 后端架构。

本工具能够高效处理 PDF 文档和图像,提供强大的 OCR 识别能力,支持多语言文本识别、表格解析、图表分析等多种功能。
---
## 🧠 DeepSeek-OCR 2 技术亮点
### 核心理念:视觉因果流 (Visual Causal Flow)
传统 VLM 采用固定的"光栅扫描"顺序处理图像,而 DeepSeek-OCR 2 模拟人类视觉的**因果流**——根据语义逻辑智能决定阅读顺序,在编码器阶段对视觉 Token 进行**动态重排序**。
### 架构创新:DeepEncoder V2
| 特性 | 说明 |
|------|------|
| **LLM 架构编码器** | 用 Qwen2-0.5B 替换 CLIP,赋予编码器更强的逻辑推理能力 |
| **双流注意力机制** | 视觉 Token 保持双向注意力,因果流 Query 采用因果注意力 |
| **级联因果推理** | 编码器负责视觉逻辑排序,解码器负责内容生成 |
### 四大升级亮点
- 🎯 **阅读顺序理解提升**:R-order Edit Distance 从 0.085 降至 **0.057**
- ⚡ **极高 Token 压缩率**:视觉 Token 控制在 **256~1120**(竞品通常 >6000)
- 📊 **综合性能领先**:OmniDocBench v1.5 得分 **91.09%**(提升 3.73%)
- 🔧 **生产鲁棒性增强**:PDF 重复率从 3.69% 降至 **2.88%**
---
## ✨ 核心功能
- **多格式文档解析**:支持 PDF、图片等多种格式上传解析
- **智能 OCR 识别**:基于 DeepSeek-OCR 2 模型,提供高精度文本识别
- **布局分析**:智能识别文档布局结构,精准提取内容排版
- **多语言支持**:支持中英文等多种语言的文本识别
- **表格图表解析**:专业的表格识别与图表数据提取功能
- **专业领域图纸识别**:支持各类专业领域图纸的语义识别
- **数据可视化解析**:支持数据分析可视化图表的逆向解析
- **Markdown 转换**:将 PDF 内容转换为结构化的 Markdown 格式
---
## 👀 项目演示
**PDF 文档解析 - 支持图片、表格等复杂内容**
| 多语种文本解析 | 图表表格解析 |
|:---:|:---:|
|

|

|
| 专业领域图纸识别
(CAD、流程图、装修图) | 数据可视化图表
逆向解析 |
|:---:|:---:|
|

|

|
---
## 🚀 使用指南
### 系统要求
⚠️ **重要提示**:
- **操作系统**:需要在 Linux 系统上运行
- **GPU 要求**:GPU ≥ 7 GB 显存(大图/多页 PDF 建议 16–24 GB)
- **兼容性说明**:RTX 50 系列 GPU 目前暂不兼容,请使用其他 GPU 型号
- **Python 版本**:3.10–3.12(推荐 3.10/3.11)
- **CUDA 版本**:11.8 或 12.1/12.2(需与 GPU 驱动匹配)
- **PyTorch**:需安装与 CUDA 匹配的预编译版本
### 快速启动
#### 方式一:一键脚本启动(推荐)
```bash
# 安装模型权重和环境依赖
bash install.sh
# 启动服务
bash start.sh
```
#### 方式二:手动安装与运行
##### 第一步:模型权重下载
从 **Hugging Face** 或 **ModelScope** 下载 DeepSeek-OCR 2 模型权重:
```bash
pip install modelscope
mkdir ./deepseek-ocr-2
modelscope download --model deepseek-ai/DeepSeek-OCR-2 --local_dir ./deepseek-ocr-2
```
##### 第二步:运行环境配置
创建虚拟环境:
```bash
conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr
```
安装 PyTorch:
```bash
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
```
安装 vLLM:
```bash
pip install ./packages/vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
```
安装项目依赖:
```bash
cd ./DeepSeek-OCR/
pip install -r requirements.txt
```
安装 flash-attn 加速库(可选):
```bash
pip install flash-attn==2.7.3 --no-build-isolation
```
配置模型路径,在项目根目录创建 `.env` 文件:
```
MODEL_PATH=/your/path/to/deepseek-ocr-2
```
##### 第三步:启动后端服务
```bash
cd backend
uvicorn main:app --host 0.0.0.0 --port 9002
```
##### 第四步:启动前端服务
```bash
cd frontend
npm install
npm run dev
```
启动成功后,在浏览器访问前端地址即可使用。
---
## 🏗️ 项目结构
```
DeepSeek-OCR-2-Studio-Web/
├── frontend/ # React 前端
├── backend/ # FastAPI 后端
├── workspace/ # 工作目录(上传文件、解析结果)
├── install.sh # 一键安装脚本
├── start.sh # 一键启动脚本
└── .env # 环境配置(MODEL_PATH)
```
---
## 🙈 参与贡献
欢迎通过 GitHub PR 提交或 Issues 参与项目贡献,我们非常欢迎任何形式的贡献,包括功能改进、Bug 修复或文档优化。
---
## 😎 技术交流
扫码添加小助手,回复 "DeepSeekOCR" 加入技术交流群,与其他小伙伴一起交流学习。
---
## 📚 参考资料
- [DeepSeek-OCR 2 技术报告](https://github.com/deepseek-ai/DeepSeek-OCR)
- [OmniDocBench 基准测试](https://github.com/opendatalab/OmniDocBench)
---