# insmess-speech-community **Repository Path**: RunBee/insmess-speech-community ## Basic Information - **Project Name**: insmess-speech-community - **Description**: 即迅语音识别服务,支持语音识别(ASR)、语音合成(TTS)、声纹识别(VPR)等功能,适配国产化arm操作系统,支持CPU快速语音识别 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 4 - **Created**: 2024-12-30 - **Last Updated**: 2024-12-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 一、即迅语音识别服务 即迅智能语音平台是一套稳定的、离线版的语音智能平台。支持语音识别、声纹识别、语音合成等操作。基于paddle开发,如果感觉对您有用,请start支持。 本系统主要针对内网离线环境使用 ## 1、主要特点 - 适配国产化服务器,支持麒麟系列操作系统; - 适配X86与ARM架构CPU; - 支持私有化离线部署; - 支持无GPU环境服务器部署,CPU加速; - 支持CPU集群部署,提高语音识别速度; - 提供http与websocket接口与sdk,可快速接入; ## 2、具备功能 - 语音识别,可将语音文件内容转写成文字。支持wav、m4a、mp3等多种格式的转写。 - 视频语音识别,可将视频中的语音内容转写成文字。 - 实时转写,支持流式语音文字转写,可实时将语音发言内容转写成文字。 - 声纹识别,支持声音特征提取,声纹对比功能。 - 声音合成,支持将文字内容转换成语音内容。 完整能力请查看请点击:[完整能力介绍](./doc/insmess-speech.md) ## 3、快速开始 ### 3.1 部署包下载 本产品主要特点试用离线环境,部署包一次下载,即可在无网络状态内网部署。 **百度网盘:**`链接: https://pan.baidu.com/s/1HK1PmU9sGB2FIC1RHcpY2w?pwd=6tyd` ### 3.2 安装 **1、上传服务包** 将安装包`insmess-speech-community-x86.tar.gz`上传至服务器任意位置。 **2、解压** ```shell tar -zxvf insmess-speech-community-x86.tar.gz ``` **3、加载docker镜像** ```shell # 进入安装包目录 cd insmess-speech-community-x86 # 加载镜像 docker load -i insmess-speech-engine-community.tar docker load -i insmess-speech-community.tar ``` **4、启动容器** 启动语音识别引擎 ```shell docker run -d -it \ -p 8090:8090 \ -p 8070:8070 \ --name insmess-speech-community-engine \ insmess-speech-engine-community:1.0 ``` 启动语音识别服务(根据实际情况修改IP) ```shell docker run -d -it \ -p 8888:8888 \ -e SPEECH_SERVER_URL=http://192.168.18.133:8090 \ -e SPEECH_SERVER_STREAM_URL=ws://192.168.18.133:8070 \ --name insmess-speech-community \ insmess-speech-community:1.0 ``` > 参数说明: > > SPEECH_SERVER_URL:离线语音识别服务 > > SPEECH_SERVER_STREAM_URL:实时语音识别服务 ### 3.3 测试 ## 4、服务接口 ### 4.1 语音识别(ASR) **1、语音识别接口** **URI:**`/asr/file` **协议:**`http` **请求方式:**`POST` **参数:** | 参数名 | 必填 | 默认值 | 说明 | | ------------- | ---- | ------ | -------------------------------------------------- | | file | 是 | 无 | 语音或视频文件的字节流,支持wav、mp3、m4a、mp4等。 | | punc | 否 | 1 | 语音识别结果是否带有标点。0为不带标点,1为带标点。 | | numberReverse | 否 | 1 | 数字逆化处理 1启用 0不启用 | **响应:** ```json { code: "200", data: "锄禾日当午,汗滴禾下土" } ``` **示例截图:** ![1722242624222](assets/1722242624222.png) **2、语音识别接口** **URI:**`/asr/base64` **协议:**`http` **请求方式:**`POST` **参数:** > 该接口参数为json对象 ```json { file: "文件的base64编码", punc: 1 } ``` **参数说明:** | 参数名 | 必填 | 默认值 | 说明 | | ------ | ---- | ------ | -------------------------------------------------- | | file | 是 | 无 | 语音文件的base64编码。 | | punc | 否 | 1 | 语音识别结果是否带有标点。0为不带标点,1为带标点。 | **响应:** ```json { code:"200", data: "锄禾日当午,汗滴禾下土" } ``` ### 4.2 流式实时转写 **3、流式语音识别接口** **URI:**`/asr/file` **协议:**`websocket` **通信方式:**websocket客户端与服务器建立连接后,将语音文件以pcm16数据流的方式发送至服务器即可。 ### 4.3 声纹识别 **1、声纹文件对比** **URI:**`/vocieprint/compare` **协议:**`http` **请求方式:**`POST` **参数说明:** | 参数名 | 必填 | 默认值 | 说明 | | ------- | ---- | ------ | -------------------------------------------------- | | fileOne | 是 | 无 | 语音或视频文件的字节流,支持wav、mp3、m4a、mp4等。 | | fileTwo | 是 | 无 | 语音或视频文件的字节流,支持wav、mp3、m4a、mp4等。 | **响应:** ```json { "code": 200, "message": "操作成功", "data": 0.7127425670623779 } ``` **示例:** ![1722242793231](assets/1722242793231.png) ### 4.4 语音合成 **1、声纹文件对比** **URI:**`/tts/getFile` **协议:**`http` **请求方式:**`POST` **请求参数:** ```json { "text": "你好,你今天吃饭了吗?", "speed": 1.0, "volume": 1.0 } ``` | 参数名 | 必填 | 默认值 | 说明 | | ------ | ---- | ------ | ---------------- | | text | 是 | 无 | 要合成语音的文本 | | speed | 否 | 1.0 | | | volume | 否 | 1.0 | | **响应:** 合成语音文件的字节流。 **示例:** ![1722244105613](assets/1722244105613.png)