# voice_text **Repository Path**: crash32/voice_text ## Basic Information - **Project Name**: voice_text - **Description**: 使用Python写的一个即时语音翻译工具,可以即时翻译计算机发出的语音或者麦克风的语音。 使用whisper库做语音识别,使用deepseek做文本翻译。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2025-02-05 - **Last Updated**: 2025-02-06 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 实时语音转录与翻译工具 本文档完全有deepseek r1生成,项目基本有deepseek v3产生。 本项目实现实时语音转录功能,支持中英文识别,并集成DeepSeek API进行即时翻译。识别结果通过浮动窗口实时展示,适合会议记录、实时翻译等场景。 ## 功能特性 - **实时语音识别** 支持Whisper多种模型(tiny/base/small/medium/large-v3) - **智能文本处理** 自动分段输出,支持停顿符号(...)和强调词(大写)标注 - **多语言翻译** 集成DeepSeek API,非中文内容自动翻译为中文 - **悬浮显示窗口** 支持置顶显示、多行滚动、颜色区分原文/译文 - **高可配置性** 支持自定义录音参数、显示样式和AI模型选择 ## 环境要求 - Python 3.9+ - NVIDIA GPU(推荐,非必须) - 麦克风设备(非必须,可以翻译PC发出的语音) ## 安装步骤 ### 1. 克隆仓库 ```bash git clone https://gitee.com/crash32/voice_text.git cd voice_text ``` ### 2. 安装依赖 ```bash pip install sounddevice pip install numpy pip install whisper-openai pip install requests pip install tkinter ``` ### 使用说明 基本使用 ```bash # 启动语音识别(默认参数) python whisper_text.py # 启动显示窗口(另开终端) python show_text.py ``` ### 高级参数 ```bash python whisper_text.py \ --device 12 \ # 音频设备ID(通过python -m sounddevice查看) --rate 16000 \ # 采样率(48000/16000) --duration 3 \ # 录音分段时长(秒) --model large-v3 \ # Whisper模型选择 --output recordings \ # 音频保存目录 --channels 1 # 录音声道数 ``` 显示窗口控制 置顶显示:窗口默认置顶,点击标题栏可取消 字体调整:修改show_text.py第41行font_size值 最大行数:修改show_text.py第42行max_lines值 工作原理 音频采集 通过sounddevice库以指定参数录制音频片段 语音识别 Whisper模型进行实时转录,支持中英文自动检测 文本处理 智能分段输出 自动去除无效尾缀(.../---) 上下文连贯性保持 翻译引擎 非中文内容通过DeepSeek API进行即时翻译 可视化输出 Tkinter窗口实时显示,原文(蓝色)与译文(黑色)区分 常见问题 Q1: 录音设备无法识别 执行 python -m sounddevice 查看可用设备ID 确保麦克风权限已开启 Q2: 翻译响应延迟 检查API密钥有效性 调整--duration参数(建议3-5秒) 尝试更小的Whisper模型(如base) Q3: 显示窗口不更新 确认同时运行show_text.py 检查防火墙是否阻止Python访问网络