# voice_text

**Repository Path**: crash32/voice_text

## Basic Information

- **Project Name**: voice_text
- **Description**: 使用Python写的一个即时语音翻译工具，可以即时翻译计算机发出的语音或者麦克风的语音。
使用whisper库做语音识别，使用deepseek做文本翻译。
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 1
- **Created**: 2025-02-05
- **Last Updated**: 2025-02-06

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 实时语音转录与翻译工具
本文档完全有deepseek r1生成，项目基本有deepseek v3产生。
本项目实现实时语音转录功能，支持中英文识别，并集成DeepSeek API进行即时翻译。识别结果通过浮动窗口实时展示，适合会议记录、实时翻译等场景。

## 功能特性

- **实时语音识别**  
  支持Whisper多种模型（tiny/base/small/medium/large-v3）
- **智能文本处理**  
  自动分段输出，支持停顿符号（...）和强调词（大写）标注
- **多语言翻译**  
  集成DeepSeek API，非中文内容自动翻译为中文
- **悬浮显示窗口**  
  支持置顶显示、多行滚动、颜色区分原文/译文
- **高可配置性**  
  支持自定义录音参数、显示样式和AI模型选择

## 环境要求

- Python 3.9+
- NVIDIA GPU（推荐，非必须）
- 麦克风设备(非必须，可以翻译PC发出的语音)

## 安装步骤

### 1. 克隆仓库
```bash
git clone https://gitee.com/crash32/voice_text.git
cd voice_text
```

### 2. 安装依赖
```bash
pip install sounddevice
pip install numpy
pip install whisper-openai
pip install requests
pip install tkinter
```

### 使用说明
基本使用
```bash
# 启动语音识别（默认参数）
python whisper_text.py

# 启动显示窗口（另开终端）
python show_text.py
```

### 高级参数
```bash
python whisper_text.py \
  --device 12 \          # 音频设备ID（通过python -m sounddevice查看）
  --rate 16000 \         # 采样率（48000/16000）
  --duration 3 \         # 录音分段时长（秒）
  --model large-v3 \     # Whisper模型选择
  --output recordings \  # 音频保存目录
  --channels 1           # 录音声道数
```

显示窗口控制
置顶显示：窗口默认置顶，点击标题栏可取消

字体调整：修改show_text.py第41行font_size值

最大行数：修改show_text.py第42行max_lines值

工作原理
音频采集
通过sounddevice库以指定参数录制音频片段

语音识别
Whisper模型进行实时转录，支持中英文自动检测

文本处理

智能分段输出

自动去除无效尾缀（.../---）

上下文连贯性保持

翻译引擎
非中文内容通过DeepSeek API进行即时翻译

可视化输出
Tkinter窗口实时显示，原文（蓝色）与译文（黑色）区分

常见问题
Q1: 录音设备无法识别
执行 python -m sounddevice 查看可用设备ID

确保麦克风权限已开启

Q2: 翻译响应延迟
检查API密钥有效性

调整--duration参数（建议3-5秒）

尝试更小的Whisper模型（如base）

Q3: 显示窗口不更新
确认同时运行show_text.py

检查防火墙是否阻止Python访问网络