# asr_speak_text **Repository Path**: xhh_code/asr_speak_text ## Basic Information - **Project Name**: asr_speak_text - **Description**: 在线语音转文字 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-02-08 - **Last Updated**: 2026-02-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # ASR 语音识别系统 基于 Flask 的语音识别 Web 应用,使用火山引擎 ASR 服务进行语音转文字。 ## 功能特性 - 支持多种音频格式(WAV、MP3、M4A、OGG、FLAC) - 实时显示识别进度和结果 - 详细的日志输出 - 现代化的用户界面 - 支持配置不同的 ASR 模型(流式/异步/非流式) ## 安装依赖 ```bash pip install -r requirements.txt ``` ## 运行应用 ```bash python app.py ``` 应用将在 `http://localhost:5000` 启动。 ## 使用方法 1. 在浏览器中打开 `http://localhost:5000` 2. 填入 App Key 和 Access Key(火山引擎控制台获取) 3. 选择 WebSocket URL 和分段时长 4. 上传音频文件 5. 点击"开始识别"按钮 6. 等待识别结果 ## API 接口 ### POST /api/asr 上传音频文件并进行语音识别。 **请求参数:** - `file`: 音频文件(必需) - `url`: WebSocket URL(可选,默认:bigmodel_nostream) - `seg_duration`: 分段时长,单位毫秒(可选,默认:200) **响应示例:** ```json { "success": true, "results": [ { "code": 0, "event": 0, "is_last_package": true, "payload_sequence": 1, "payload_size": 1234, "payload_msg": { "result": { "text": "识别的文字内容" } } } ] } ``` ### GET /api/config 获取当前配置。 **响应示例:** ```json { "app_key": "1035101277", "access_key": "Z_sD0j3eOZ0_C0D6AXD_0s03GsZnBtBk" } ``` ### POST /api/config 更新配置。 **请求参数:** - `app_key`: 新的 App Key(可选) - `access_key`: 新的 Access Key(可选) **响应示例:** ```json { "success": true, "config": { "app_key": "new_app_key", "access_key": "new_access_key" } } ``` ## 注意事项 1. 确保系统已安装 ffmpeg(用于音频格式转换) 2. 确保有有效的火山引擎 ASR 服务凭证 3. 上传文件大小限制为 100MB 4. 处理超时时间为 5 分钟 ## 文件结构 ``` sauc_python/ ├── app.py # Flask 应用主文件 ├── requirements.txt # Python 依赖 ├── templates/ │ └── index.html # 前端页面 ├── uploads/ # 上传文件临时目录(自动创建) └── run.log # 运行日志 ``` ## 许可证 MIT License