diff --git a/docs/Serverless API-voice url.md b/docs/Serverless API-voice url.md index c436736856802aa762c18d3c067addf8a23f64f9..41b132c4df09d71652caf4e1215ad827983c7100 100644 --- a/docs/Serverless API-voice url.md +++ b/docs/Serverless API-voice url.md @@ -1,51 +1,99 @@ -# 使用语音生成模型克隆声音 +# 语音生成模型-声纹参数配置指南 -目前 Serverless API 的语音生成模型 [CosyVoice-300M](https://ai.gitee.com/serverless-api?service=720)、[ChatTTS](https://ai.gitee.com/serverless-api?service=135)、[fish-speech-1.2-sft](https://ai.gitee.com/serverless-api?service=865) 支持识别音频样本来克隆声音,您可以录制想要克隆的声音样本,生成与样本音色一致的声音。可用于定制化语音助手,虚拟角色声音制作等。 +## 基本介绍 + +目前 Serverless API 的语音生成模型 [CosyVoice-300M](https://ai.gitee.com/serverless-api?service=720)、[ChatTTS](https://ai.gitee.com/serverless-api?service=135)、[fish-speech-1.2-sft](https://ai.gitee.com/serverless-api?service=865) 支持识别音频的声音数据生成和样本一致的声音。可用于定制化语音助手,虚拟角色声音制作等。 ![alt text](/img/serverless-api/voiceurl1.png) -您可以在语音生成模型的参数设置中配置 voice_url ,以 url 的形式传递 .pt 格式的声纹文件给模型,从而生成和文件中声音特征一致的音频。 - .pt 格式的声纹文件,可以通过录制音频文件转制而成,不同模型所要求的声纹文件不同,对于 CosyVoice-300M 和 fish-speech-1.2-sft 模型可使用 Gitee AI 提供的声纹文件接口制作,而 ChatTTS 可使用 ChatTTS 声音克隆工具 http://region-9.autodl.pro:41137/ 制作。 +## 简要操作步骤 + +只需在语音生成模型的参数设置中配置 voice_url ,以 url 的形式传递 .pt 格式的声纹文件给模型,即可生成和文件中声音特征一致的音频。主要包括以下几个关键步骤: + +1. 制作.pt 格式的声纹文件,可以通过音频文件转制而成,不同模型所要求的声纹文件不同: +- CosyVoice-300M 和 fish-speech-1.2-sft 模型可使用 Gitee AI 提供的声纹文件接口制作。 +- ChatTTS 可使用 ChatTTS 声音克隆工具 http://region-9.autodl.pro:41137/ 制作。 + +2. 将制作好的 .pt 格式的声纹文件,存放在公开可下载的地址,比如放在您的 Gitee 代码仓库中。 -如果您已经制作好了 .pt 格式的声纹文件,只需将其存放在公开可下载的地址,并复制下载地址至下图模型中的 voice_url 参数,输入文本并运行,即可生成与文件音色一致的声音。 +3. 复制下载地址至下图模型中的 voice_url 参数,最后输入文本并运行,就能生成与文件音色一致的声音了。 ![alt text](/img/serverless-api/voiceurl2.png) -下面是详细的声纹文件制作指南: +## 详细操作步骤: -## 步骤1:制作.pt 格式的声纹文件 +### 步骤1:制作.pt 格式的声纹文件 -**1.制作音频文件** +#### **1.1 制作音频文件** 使用录音软件录制普通话且吐字清晰的音频,时长建议保持在 5-15 秒,文件格式为 .mp3 或 .m4a ,建议文件不易过大。 -**2.生成 CosyVoice-300M 和 fish-speech-1.2-sft 模型的声纹文件** -将音频文件上传至 Gitee AI 提供的声纹文件接口,Authorization 参数输入 Gitee AI 的访问令牌,prompt_text 是和录音内容一致的文字描述,请求成功后,接口会返回声纹文件,下载并修改文件格式为.pt即可。 +#### **1.2 生成 CosyVoice-300M 和 fish-speech-1.2-sft 模型的声纹文件** + +将音频文件上传至 Gitee AI 提供的声音特征提取接口,下面是接口的详细说明: + +**接口名** + +voiceFeatureExtraction -```Plain -curl +**功能描述** + +该接口用于处理音频文件,提取关键音频特征 + +**注意事项** +- 文件大小限制:小于 5 M +- 支持的音频格式:.mp3 或 .m4a +- 该接口可以提取音频中的关键特征用于后续处理和分析 + +**调用方式** + +HTTPS 调用 + +``` +POST https://ai.gitee.com/api/inference/serverless/PH5EDMEALV1D/voice-feature-extraction +``` + + +**请求参数** + +| 参数位置 | 名称 | 类型 | 必填 | 说明 | +|----------|---------------|--------|------|----------------------------------------------------------------------------------------| +| Header | Authorization | string | 是 | 访问令牌,可在工作台->设置->访问令牌,进行生成获取。值格式:"Bearer access_token",示例值:"Bearer t-g1044qeGEDXTB6NDJOGV4JQCYDGHRBARFTGT1234" | +| form-data| file | file | 是 | 语音内容。注意:Content-Type为application/octet-stream,示例值: 二进制文件 | +| form-data| prompt_text | string | 是 | 提词内容。注意:与录音内容一致的文字描述。 | + + +**返回参数** + +HTTP状态码为 200 时,表示成功。返回文件二进制流。 + + +**Curl示例** + +```curl --location --request POST 'https://ai.gitee.com/api/inference/serverless/PH5EDMEALV1D/voice-feature-extraction' --header 'Authorization: Bearer 输入你的 Gitee AI 访问令牌 ' --form 'file=@"上传.mp3 或.m4a格式的文件"' --form 'prompt_text="和录音内容一致的文字描述“’ ``` -以下是使用 APIfox 接口工具制作声纹文件的操作,您也可以选择自己熟悉的工具请求接口。 - 1) 新建接口井输入接口地址. +**使用 APIfox 接口工具请求示例** + + 1) 新建接口井输入接口地址。 - 2) 添加 Authorization 参数,参数值可以在 Gitee Al 工作台-访问令牌获取. + 2) 添加 Authorization 参数,参数值可以在 Gitee Al 工作台-访问令牌获取。 - 3) 选择 Body - form-data . + 3) 选择 Body - form-data 。 - 4) 添加 file 参数,并上传音频文件. + 4) 添加 file 参数,并上传音频文件。 - 5) 添加 prompt_text 參数,參数值是和录音内容一致的文字描述,添加完成后点击发送. + 5) 添加 prompt_text 參数,參数值是和录音内容一致的文字描述,添加完成后点击发送。 - 6) 请求成功后,下载接口返回的文件,并修改文件名为 xxxx.pt. + 6) 请求成功后,下载接口返回的文件,并修改文件名为 xxxx.pt。 ![alt text](/img/serverless-api/voiceurl3.png) @@ -53,7 +101,8 @@ curl ![alt text](/img/serverless-api/voiceurl5.png) - **3. 生成 ChatTTS 模型的声纹文件** +#### **1.3 生成 ChatTTS 模型的声纹文件** + 1) 访问 Chattts 的声音克隆工具 http://region-9.autodl.pro:41137/ @@ -68,7 +117,7 @@ curl ![alt text](/img/serverless-api/voiceurl5-2.png) -## 步骤2:上传声纹文件并获取下载地址 +### 步骤2:上传声纹文件并获取下载地址 语音生成模型的 voice_url 参数需要读取声纹文件,所以我们需要将声纹文件上传至网盘或其他可下载的公共空间,并获取文件下载的 url,配置到语音模型的 voice_url 参数即可。 @@ -78,7 +127,7 @@ curl ![alt text](/img/serverless-api/voiceurl7.png) ![alt text](/img/serverless-api/voiceurl8.png) -## 步骤3:在模型参数中粘贴地址 +### 步骤3:在模型参数中粘贴地址 根据您生成的 pt 文件类型,选择 [CosyVoice-300M](https://ai.gitee.com/serverless-api?service=720)、[ChatTTS](https://ai.gitee.com/serverless-api?service=135)、[fish-speech-1.2-sft](https://ai.gitee.com/serverless-api?service=865) ,粘贴声纹文件下载地址到 voice_url 参数,输入文字并运行。即可生成和声纹音色一致的声音。