# insmess-speech-community

**Repository Path**: RunBee/insmess-speech-community

## Basic Information

- **Project Name**: insmess-speech-community
- **Description**: 即迅语音识别服务，支持语音识别（ASR）、语音合成（TTS）、声纹识别（VPR）等功能，适配国产化arm操作系统，支持CPU快速语音识别
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 4
- **Created**: 2024-12-30
- **Last Updated**: 2024-12-30

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 一、即迅语音识别服务

即迅智能语音平台是一套稳定的、离线版的语音智能平台。支持语音识别、声纹识别、语音合成等操作。基于paddle开发，如果感觉对您有用，请start支持。

本系统主要针对内网离线环境使用

## 1、主要特点

- 适配国产化服务器，支持麒麟系列操作系统；
- 适配X86与ARM架构CPU；
- 支持私有化离线部署；
- 支持无GPU环境服务器部署，CPU加速；
- 支持CPU集群部署，提高语音识别速度；
- 提供http与websocket接口与sdk，可快速接入；

## 2、具备功能

- 语音识别，可将语音文件内容转写成文字。支持wav、m4a、mp3等多种格式的转写。
- 视频语音识别，可将视频中的语音内容转写成文字。
- 实时转写，支持流式语音文字转写，可实时将语音发言内容转写成文字。
- 声纹识别，支持声音特征提取，声纹对比功能。
- 声音合成，支持将文字内容转换成语音内容。

完整能力请查看请点击：[完整能力介绍](./doc/insmess-speech.md)

## 3、快速开始

### 3.1 部署包下载

本产品主要特点试用离线环境，部署包一次下载，即可在无网络状态内网部署。

**百度网盘：**`链接: https://pan.baidu.com/s/1HK1PmU9sGB2FIC1RHcpY2w?pwd=6tyd`

### 3.2 安装

**1、上传服务包**

将安装包`insmess-speech-community-x86.tar.gz`上传至服务器任意位置。

**2、解压**

```shell
tar -zxvf insmess-speech-community-x86.tar.gz
```

**3、加载docker镜像**

```shell
# 进入安装包目录
cd insmess-speech-community-x86
# 加载镜像
docker load -i insmess-speech-engine-community.tar
docker load -i insmess-speech-community.tar
```

**4、启动容器**

启动语音识别引擎

```shell
docker run -d -it \
-p 8090:8090 \
-p 8070:8070 \
--name insmess-speech-community-engine \
insmess-speech-engine-community:1.0
```

启动语音识别服务（根据实际情况修改IP）

```shell
docker run -d -it \
-p 8888:8888 \
-e SPEECH_SERVER_URL=http://192.168.18.133:8090 \
-e SPEECH_SERVER_STREAM_URL=ws://192.168.18.133:8070 \
--name insmess-speech-community \
insmess-speech-community:1.0
```

> 参数说明：
>
> SPEECH_SERVER_URL：离线语音识别服务
>
> SPEECH_SERVER_STREAM_URL：实时语音识别服务

### 3.3 测试

## 4、服务接口

### 4.1 语音识别（ASR）

**1、语音识别接口**

**URI：**`/asr/file`

**协议：**`http`

**请求方式：**`POST`

**参数：**

| 参数名        | 必填 | 默认值 | 说明                                               |
| ------------- | ---- | ------ | -------------------------------------------------- |
| file          | 是   | 无     | 语音或视频文件的字节流，支持wav、mp3、m4a、mp4等。 |
| punc          | 否   | 1      | 语音识别结果是否带有标点。0为不带标点，1为带标点。 |
| numberReverse | 否   | 1      | 数字逆化处理 1启用 0不启用                         |

**响应：**

```json
{
    code: "200",
    data: "锄禾日当午，汗滴禾下土"
}
```

**示例截图：**

![1722242624222](assets/1722242624222.png)

**2、语音识别接口**

**URI：**`/asr/base64`

**协议：**`http`

**请求方式：**`POST`

**参数：**

> 该接口参数为json对象

```json
{
    file: "文件的base64编码",
    punc: 1
}
```

**参数说明：**

| 参数名 | 必填 | 默认值 | 说明                                               |
| ------ | ---- | ------ | -------------------------------------------------- |
| file   | 是   | 无     | 语音文件的base64编码。                             |
| punc   | 否   | 1      | 语音识别结果是否带有标点。0为不带标点，1为带标点。 |

**响应：**

```json
{
    code:"200",
    data: "锄禾日当午，汗滴禾下土"
}
```

### 4.2 流式实时转写

**3、流式语音识别接口**

**URI：**`/asr/file`

**协议：**`websocket`

**通信方式：**websocket客户端与服务器建立连接后，将语音文件以pcm16数据流的方式发送至服务器即可。

### 4.3 声纹识别

**1、声纹文件对比**

**URI：**`/vocieprint/compare`

**协议：**`http`

**请求方式：**`POST`

**参数说明：**

| 参数名  | 必填 | 默认值 | 说明                                               |
| ------- | ---- | ------ | -------------------------------------------------- |
| fileOne | 是   | 无     | 语音或视频文件的字节流，支持wav、mp3、m4a、mp4等。 |
| fileTwo | 是   | 无     | 语音或视频文件的字节流，支持wav、mp3、m4a、mp4等。 |

**响应：**

```json
{
    "code": 200,
    "message": "操作成功",
    "data": 0.7127425670623779
}
```

**示例：**

![1722242793231](assets/1722242793231.png)

### 4.4 语音合成

**1、声纹文件对比**

**URI：**`/tts/getFile`

**协议：**`http`

**请求方式：**`POST`

**请求参数：**

```json
{
    "text": "你好，你今天吃饭了吗？",
    "speed": 1.0,
    "volume": 1.0
}
```

| 参数名 | 必填 | 默认值 | 说明             |
| ------ | ---- | ------ | ---------------- |
| text   | 是   | 无     | 要合成语音的文本 |
| speed  | 否   | 1.0    |                  |
| volume | 否   | 1.0    |                  |

**响应：**

合成语音文件的字节流。

**示例：**

![1722244105613](assets/1722244105613.png)