From d12fa16d83a048ab2aa6477f1bef754708737db2 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E7=8E=8B=E6=B2=BB=E9=94=8B?= <77213305@qq.com> Date: Wed, 7 Aug 2024 19:49:13 +0800 Subject: [PATCH 1/3] =?UTF-8?q?=E5=A2=9E=E5=8A=A0=20Serverless=20API=20?= =?UTF-8?q?=E8=AF=AD=E9=9F=B3=E7=94=9F=E6=88=90=E6=A8=A1=E5=9E=8B=E5=85=8B?= =?UTF-8?q?=E9=9A=86=E5=A3=B0=E9=9F=B3=E6=8C=87=E5=8D=97=E2=80=9C?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/Serverless API-voice url.md | 58 +++++++++++++++++++++++++++----- 1 file changed, 50 insertions(+), 8 deletions(-) diff --git a/docs/Serverless API-voice url.md b/docs/Serverless API-voice url.md index c436736..87331bf 100644 --- a/docs/Serverless API-voice url.md +++ b/docs/Serverless API-voice url.md @@ -6,7 +6,9 @@ 您可以在语音生成模型的参数设置中配置 voice_url ,以 url 的形式传递 .pt 格式的声纹文件给模型,从而生成和文件中声音特征一致的音频。 - .pt 格式的声纹文件,可以通过录制音频文件转制而成,不同模型所要求的声纹文件不同,对于 CosyVoice-300M 和 fish-speech-1.2-sft 模型可使用 Gitee AI 提供的声纹文件接口制作,而 ChatTTS 可使用 ChatTTS 声音克隆工具 http://region-9.autodl.pro:41137/ 制作。 + .pt 格式的声纹文件,可以通过音频文件转制而成,不同模型所要求的声纹文件不同: + - CosyVoice-300M 和 fish-speech-1.2-sft 模型可使用 Gitee AI 提供的声纹文件接口制作 + - ChatTTS 可使用 ChatTTS 声音克隆工具 http://region-9.autodl.pro:41137/ 制作。 如果您已经制作好了 .pt 格式的声纹文件,只需将其存放在公开可下载的地址,并复制下载地址至下图模型中的 voice_url 参数,输入文本并运行,即可生成与文件音色一致的声音。 @@ -17,23 +19,62 @@ ## 步骤1:制作.pt 格式的声纹文件 -**1.制作音频文件** +### **1.1 制作音频文件** 使用录音软件录制普通话且吐字清晰的音频,时长建议保持在 5-15 秒,文件格式为 .mp3 或 .m4a ,建议文件不易过大。 -**2.生成 CosyVoice-300M 和 fish-speech-1.2-sft 模型的声纹文件** -将音频文件上传至 Gitee AI 提供的声纹文件接口,Authorization 参数输入 Gitee AI 的访问令牌,prompt_text 是和录音内容一致的文字描述,请求成功后,接口会返回声纹文件,下载并修改文件格式为.pt即可。 +### **1.2 生成 CosyVoice-300M 和 fish-speech-1.2-sft 模型的声纹文件** -```Plain -curl +将音频文件上传至 Gitee AI 提供的声音特征提取接口,下面是接口的详细说明 + +**接口英文名** + +voiceFeatureExtraction + +**功能描述** + +该接口用于处理音频文件,提取关键音频特征。 + +**注意事项** +- 文件大小限制:小于 5 M +- 支持的音频格式:.mp3 或 .m4a +- 该接口可以提取音频中的关键特征用于后续处理和分析。 + +**调用方式** + +HTTPS 调用 + +``` +POST https://ai.gitee.com/api/inference/serverless/PH5EDMEALV1D/voice-feature-extraction +``` + + +**请求参数** + +| 参数位置 | 属性 | 类型 | 必填 | 说明 | +|-------------|---------------|----------|------|--------------------------------------------| +| Header | Authorization | string | 是 | 接口调用访问令牌,该参数为 Header 参数。 | +| Body | file | FormData | 是 | form-data 中音频文件标识。 | +| Body | prompt_text | string | 是 | 与录音内容一致的文字描述。 | + + +**返回参数** + +HTTP状态码为 200 时,表示成功。返回文件二进制流。 + + +**Curl示例** + +```curl --location --request POST 'https://ai.gitee.com/api/inference/serverless/PH5EDMEALV1D/voice-feature-extraction' --header 'Authorization: Bearer 输入你的 Gitee AI 访问令牌 ' --form 'file=@"上传.mp3 或.m4a格式的文件"' --form 'prompt_text="和录音内容一致的文字描述“’ ``` -以下是使用 APIfox 接口工具制作声纹文件的操作,您也可以选择自己熟悉的工具请求接口。 + +**使用 APIfox 接口工具请求示例** 1) 新建接口井输入接口地址. @@ -53,7 +94,8 @@ curl ![alt text](/img/serverless-api/voiceurl5.png) - **3. 生成 ChatTTS 模型的声纹文件** + ### **1.3 生成 ChatTTS 模型的声纹文件** + 1) 访问 Chattts 的声音克隆工具 http://region-9.autodl.pro:41137/ -- Gitee From aad97ac541d641ef37eeb2a95fb02cbb3113ad91 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E7=8E=8B=E6=B2=BB=E9=94=8B?= <77213305@qq.com> Date: Thu, 8 Aug 2024 10:17:08 +0800 Subject: [PATCH 2/3] =?UTF-8?q?=E2=80=9C=E8=AF=AD=E9=9F=B3=E7=94=9F?= =?UTF-8?q?=E6=88=90=E6=A8=A1=E5=9E=8B-=E5=A3=B0=E7=BA=B9=E5=8F=82?= =?UTF-8?q?=E6=95=B0=E9=85=8D=E7=BD=AE=E6=8C=87=E5=8D=97=E2=80=9D?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/Serverless API-voice url.md | 18 ++++++++++-------- 1 file changed, 10 insertions(+), 8 deletions(-) diff --git a/docs/Serverless API-voice url.md b/docs/Serverless API-voice url.md index 87331bf..5ca7d0b 100644 --- a/docs/Serverless API-voice url.md +++ b/docs/Serverless API-voice url.md @@ -1,21 +1,23 @@ -# 使用语音生成模型克隆声音 +# 语音生成模型-声纹参数配置指南 -目前 Serverless API 的语音生成模型 [CosyVoice-300M](https://ai.gitee.com/serverless-api?service=720)、[ChatTTS](https://ai.gitee.com/serverless-api?service=135)、[fish-speech-1.2-sft](https://ai.gitee.com/serverless-api?service=865) 支持识别音频样本来克隆声音,您可以录制想要克隆的声音样本,生成与样本音色一致的声音。可用于定制化语音助手,虚拟角色声音制作等。 +目前 Serverless API 的语音生成模型 [CosyVoice-300M](https://ai.gitee.com/serverless-api?service=720)、[ChatTTS](https://ai.gitee.com/serverless-api?service=135)、[fish-speech-1.2-sft](https://ai.gitee.com/serverless-api?service=865) 支持识别音频的声音数据生成和样本一致的声音。可用于定制化语音助手,虚拟角色声音制作等。 ![alt text](/img/serverless-api/voiceurl1.png) -您可以在语音生成模型的参数设置中配置 voice_url ,以 url 的形式传递 .pt 格式的声纹文件给模型,从而生成和文件中声音特征一致的音频。 +只需在语音生成模型的参数设置中配置 voice_url ,以 url 的形式传递 .pt 格式的声纹文件给模型,即可生成和文件中声音特征一致的音频。主要包括以下几个关键步骤: - .pt 格式的声纹文件,可以通过音频文件转制而成,不同模型所要求的声纹文件不同: - - CosyVoice-300M 和 fish-speech-1.2-sft 模型可使用 Gitee AI 提供的声纹文件接口制作 - - ChatTTS 可使用 ChatTTS 声音克隆工具 http://region-9.autodl.pro:41137/ 制作。 +1. 制作.pt 格式的声纹文件,可以通过音频文件转制而成,不同模型所要求的声纹文件不同: +- CosyVoice-300M 和 fish-speech-1.2-sft 模型可使用 Gitee AI 提供的声纹文件接口制作。 +- ChatTTS 可使用 ChatTTS 声音克隆工具 http://region-9.autodl.pro:41137/ 制作。 -如果您已经制作好了 .pt 格式的声纹文件,只需将其存放在公开可下载的地址,并复制下载地址至下图模型中的 voice_url 参数,输入文本并运行,即可生成与文件音色一致的声音。 +2. 将制作好的 .pt 格式的声纹文件,存放在公开可下载的地址,比如放在您的 Gitee 代码仓库中。 + +3. 复制下载地址至下图模型中的 voice_url 参数,最后输入文本并运行,就能生成与文件音色一致的声音了。 ![alt text](/img/serverless-api/voiceurl2.png) -下面是详细的声纹文件制作指南: +下面是详细的操作指南: ## 步骤1:制作.pt 格式的声纹文件 -- Gitee From c7b60974ee410e099c2ef757c1115e9c13e2b37c Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E7=8E=8B=E6=B2=BB=E9=94=8B?= <77213305@qq.com> Date: Thu, 8 Aug 2024 13:48:44 +0800 Subject: [PATCH 3/3] =?UTF-8?q?=E8=AF=AD=E9=9F=B3=E7=94=9F=E6=88=90?= =?UTF-8?q?=E6=A8=A1=E5=9E=8B-=E5=A3=B0=E7=BA=B9=E5=8F=82=E6=95=B0?= =?UTF-8?q?=E9=85=8D=E7=BD=AE=E6=8C=87=E5=8D=97?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/Serverless API-voice url.md | 49 ++++++++++++++++++-------------- 1 file changed, 27 insertions(+), 22 deletions(-) diff --git a/docs/Serverless API-voice url.md b/docs/Serverless API-voice url.md index 5ca7d0b..41b132c 100644 --- a/docs/Serverless API-voice url.md +++ b/docs/Serverless API-voice url.md @@ -1,9 +1,14 @@ # 语音生成模型-声纹参数配置指南 +## 基本介绍 + 目前 Serverless API 的语音生成模型 [CosyVoice-300M](https://ai.gitee.com/serverless-api?service=720)、[ChatTTS](https://ai.gitee.com/serverless-api?service=135)、[fish-speech-1.2-sft](https://ai.gitee.com/serverless-api?service=865) 支持识别音频的声音数据生成和样本一致的声音。可用于定制化语音助手,虚拟角色声音制作等。 ![alt text](/img/serverless-api/voiceurl1.png) + +## 简要操作步骤 + 只需在语音生成模型的参数设置中配置 voice_url ,以 url 的形式传递 .pt 格式的声纹文件给模型,即可生成和文件中声音特征一致的音频。主要包括以下几个关键步骤: 1. 制作.pt 格式的声纹文件,可以通过音频文件转制而成,不同模型所要求的声纹文件不同: @@ -17,31 +22,31 @@ ![alt text](/img/serverless-api/voiceurl2.png) -下面是详细的操作指南: +## 详细操作步骤: -## 步骤1:制作.pt 格式的声纹文件 +### 步骤1:制作.pt 格式的声纹文件 -### **1.1 制作音频文件** +#### **1.1 制作音频文件** 使用录音软件录制普通话且吐字清晰的音频,时长建议保持在 5-15 秒,文件格式为 .mp3 或 .m4a ,建议文件不易过大。 -### **1.2 生成 CosyVoice-300M 和 fish-speech-1.2-sft 模型的声纹文件** +#### **1.2 生成 CosyVoice-300M 和 fish-speech-1.2-sft 模型的声纹文件** -将音频文件上传至 Gitee AI 提供的声音特征提取接口,下面是接口的详细说明 +将音频文件上传至 Gitee AI 提供的声音特征提取接口,下面是接口的详细说明: -**接口英文名** +**接口名** voiceFeatureExtraction **功能描述** -该接口用于处理音频文件,提取关键音频特征。 +该接口用于处理音频文件,提取关键音频特征 **注意事项** - 文件大小限制:小于 5 M - 支持的音频格式:.mp3 或 .m4a -- 该接口可以提取音频中的关键特征用于后续处理和分析。 +- 该接口可以提取音频中的关键特征用于后续处理和分析 **调用方式** @@ -54,11 +59,11 @@ POST https://ai.gitee.com/api/inference/serverless/PH5EDMEALV1D/voice-feature-ex **请求参数** -| 参数位置 | 属性 | 类型 | 必填 | 说明 | -|-------------|---------------|----------|------|--------------------------------------------| -| Header | Authorization | string | 是 | 接口调用访问令牌,该参数为 Header 参数。 | -| Body | file | FormData | 是 | form-data 中音频文件标识。 | -| Body | prompt_text | string | 是 | 与录音内容一致的文字描述。 | +| 参数位置 | 名称 | 类型 | 必填 | 说明 | +|----------|---------------|--------|------|----------------------------------------------------------------------------------------| +| Header | Authorization | string | 是 | 访问令牌,可在工作台->设置->访问令牌,进行生成获取。值格式:"Bearer access_token",示例值:"Bearer t-g1044qeGEDXTB6NDJOGV4JQCYDGHRBARFTGT1234" | +| form-data| file | file | 是 | 语音内容。注意:Content-Type为application/octet-stream,示例值: 二进制文件 | +| form-data| prompt_text | string | 是 | 提词内容。注意:与录音内容一致的文字描述。 | **返回参数** @@ -78,17 +83,17 @@ HTTP状态码为 200 时,表示成功。返回文件二进制流。 **使用 APIfox 接口工具请求示例** - 1) 新建接口井输入接口地址. + 1) 新建接口井输入接口地址。 - 2) 添加 Authorization 参数,参数值可以在 Gitee Al 工作台-访问令牌获取. + 2) 添加 Authorization 参数,参数值可以在 Gitee Al 工作台-访问令牌获取。 - 3) 选择 Body - form-data . + 3) 选择 Body - form-data 。 - 4) 添加 file 参数,并上传音频文件. + 4) 添加 file 参数,并上传音频文件。 - 5) 添加 prompt_text 參数,參数值是和录音内容一致的文字描述,添加完成后点击发送. + 5) 添加 prompt_text 參数,參数值是和录音内容一致的文字描述,添加完成后点击发送。 - 6) 请求成功后,下载接口返回的文件,并修改文件名为 xxxx.pt. + 6) 请求成功后,下载接口返回的文件,并修改文件名为 xxxx.pt。 ![alt text](/img/serverless-api/voiceurl3.png) @@ -96,7 +101,7 @@ HTTP状态码为 200 时,表示成功。返回文件二进制流。 ![alt text](/img/serverless-api/voiceurl5.png) - ### **1.3 生成 ChatTTS 模型的声纹文件** +#### **1.3 生成 ChatTTS 模型的声纹文件** 1) 访问 Chattts 的声音克隆工具 http://region-9.autodl.pro:41137/ @@ -112,7 +117,7 @@ HTTP状态码为 200 时,表示成功。返回文件二进制流。 ![alt text](/img/serverless-api/voiceurl5-2.png) -## 步骤2:上传声纹文件并获取下载地址 +### 步骤2:上传声纹文件并获取下载地址 语音生成模型的 voice_url 参数需要读取声纹文件,所以我们需要将声纹文件上传至网盘或其他可下载的公共空间,并获取文件下载的 url,配置到语音模型的 voice_url 参数即可。 @@ -122,7 +127,7 @@ HTTP状态码为 200 时,表示成功。返回文件二进制流。 ![alt text](/img/serverless-api/voiceurl7.png) ![alt text](/img/serverless-api/voiceurl8.png) -## 步骤3:在模型参数中粘贴地址 +### 步骤3:在模型参数中粘贴地址 根据您生成的 pt 文件类型,选择 [CosyVoice-300M](https://ai.gitee.com/serverless-api?service=720)、[ChatTTS](https://ai.gitee.com/serverless-api?service=135)、[fish-speech-1.2-sft](https://ai.gitee.com/serverless-api?service=865) ,粘贴声纹文件下载地址到 voice_url 参数,输入文字并运行。即可生成和声纹音色一致的声音。 -- Gitee