From d12fa16d83a048ab2aa6477f1bef754708737db2 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E7=8E=8B=E6=B2=BB=E9=94=8B?= <77213305@qq.com>
Date: Wed, 7 Aug 2024 19:49:13 +0800
Subject: [PATCH 1/3] =?UTF-8?q?=E5=A2=9E=E5=8A=A0=20Serverless=20API=20?=
 =?UTF-8?q?=E8=AF=AD=E9=9F=B3=E7=94=9F=E6=88=90=E6=A8=A1=E5=9E=8B=E5=85=8B?=
 =?UTF-8?q?=E9=9A=86=E5=A3=B0=E9=9F=B3=E6=8C=87=E5=8D=97=E2=80=9C?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 docs/Serverless API-voice url.md | 58 +++++++++++++++++++++++++++-----
 1 file changed, 50 insertions(+), 8 deletions(-)

diff --git a/docs/Serverless API-voice url.md b/docs/Serverless API-voice url.md
index c436736..87331bf 100644
--- a/docs/Serverless API-voice url.md	
+++ b/docs/Serverless API-voice url.md	
@@ -6,7 +6,9 @@
 
 您可以在语音生成模型的参数设置中配置 voice_url ，以 url 的形式传递  .pt 格式的声纹文件给模型，从而生成和文件中声音特征一致的音频。
 
- .pt 格式的声纹文件，可以通过录制音频文件转制而成，不同模型所要求的声纹文件不同，对于 CosyVoice-300M 和 fish-speech-1.2-sft 模型可使用 Gitee AI 提供的声纹文件接口制作，而 ChatTTS 可使用 ChatTTS 声音克隆工具 http://region-9.autodl.pro:41137/ 制作。
+ .pt 格式的声纹文件，可以通过音频文件转制而成，不同模型所要求的声纹文件不同：
+ - CosyVoice-300M 和 fish-speech-1.2-sft 模型可使用 Gitee AI 提供的声纹文件接口制作
+ - ChatTTS 可使用 ChatTTS 声音克隆工具 http://region-9.autodl.pro:41137/ 制作。
 
 如果您已经制作好了 .pt 格式的声纹文件，只需将其存放在公开可下载的地址，并复制下载地址至下图模型中的 voice_url 参数，输入文本并运行，即可生成与文件音色一致的声音。
 
@@ -17,23 +19,62 @@
 
 ## 步骤1：制作.pt 格式的声纹文件
 
-**1.制作音频文件**
+### **1.1 制作音频文件**
 
 使用录音软件录制普通话且吐字清晰的音频，时长建议保持在 5-15 秒，文件格式为 .mp3 或 .m4a ，建议文件不易过大。
 
-**2.生成 CosyVoice-300M 和 fish-speech-1.2-sft 模型的声纹文件**
 
-将音频文件上传至 Gitee AI 提供的声纹文件接口，Authorization 参数输入 Gitee AI 的访问令牌，prompt_text 是和录音内容一致的文字描述，请求成功后，接口会返回声纹文件，下载并修改文件格式为.pt即可。
+### **1.2 生成 CosyVoice-300M 和 fish-speech-1.2-sft 模型的声纹文件**
 
-```Plain
-curl 
+将音频文件上传至 Gitee AI 提供的声音特征提取接口，下面是接口的详细说明
+
+**接口英文名**
+
+voiceFeatureExtraction
+
+**功能描述**
+
+该接口用于处理音频文件，提取关键音频特征。
+
+**注意事项**
+- 文件大小限制：小于 5 M
+- 支持的音频格式：.mp3 或 .m4a
+- 该接口可以提取音频中的关键特征用于后续处理和分析。
+
+**调用方式**
+
+HTTPS 调用
+
+```
+POST https://ai.gitee.com/api/inference/serverless/PH5EDMEALV1D/voice-feature-extraction
+```
+
+
+**请求参数**
+
+| 参数位置    | 属性          | 类型     | 必填 | 说明                                       |
+|-------------|---------------|----------|------|--------------------------------------------|
+| Header      | Authorization | string   | 是   | 接口调用访问令牌，该参数为 Header 参数。   |
+| Body        | file          | FormData | 是   | form-data 中音频文件标识。                 |
+| Body        | prompt_text   | string   | 是   | 与录音内容一致的文字描述。                 |
+
+
+**返回参数**
+
+HTTP状态码为 200 时，表示成功。返回文件二进制流。
+
+
+**Curl示例**
+
+```curl
 --location --request POST 'https://ai.gitee.com/api/inference/serverless/PH5EDMEALV1D/voice-feature-extraction' 
 --header 'Authorization: Bearer 输入你的 Gitee AI 访问令牌 ' 
 --form 'file=@"上传.mp3 或.m4a格式的文件"' 
 --form 'prompt_text="和录音内容一致的文字描述“’
 ```
 
-以下是使用 APIfox 接口工具制作声纹文件的操作，您也可以选择自己熟悉的工具请求接口。
+
+**使用 APIfox 接口工具请求示例**
 
     1） 新建接口井输入接口地址.
 
@@ -53,7 +94,8 @@ curl
 
 ![alt text](/img/serverless-api/voiceurl5.png)
 
- **3. 生成 ChatTTS 模型的声纹文件**
+ ### **1.3 生成 ChatTTS 模型的声纹文件**
+
 
    1） 访问 Chattts 的声音克隆工具 http://region-9.autodl.pro:41137/
 
-- 
Gitee


From aad97ac541d641ef37eeb2a95fb02cbb3113ad91 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E7=8E=8B=E6=B2=BB=E9=94=8B?= <77213305@qq.com>
Date: Thu, 8 Aug 2024 10:17:08 +0800
Subject: [PATCH 2/3] =?UTF-8?q?=E2=80=9C=E8=AF=AD=E9=9F=B3=E7=94=9F?=
 =?UTF-8?q?=E6=88=90=E6=A8=A1=E5=9E=8B-=E5=A3=B0=E7=BA=B9=E5=8F=82?=
 =?UTF-8?q?=E6=95=B0=E9=85=8D=E7=BD=AE=E6=8C=87=E5=8D=97=E2=80=9D?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 docs/Serverless API-voice url.md | 18 ++++++++++--------
 1 file changed, 10 insertions(+), 8 deletions(-)

diff --git a/docs/Serverless API-voice url.md b/docs/Serverless API-voice url.md
index 87331bf..5ca7d0b 100644
--- a/docs/Serverless API-voice url.md	
+++ b/docs/Serverless API-voice url.md	
@@ -1,21 +1,23 @@
-# 使用语音生成模型克隆声音
+# 语音生成模型-声纹参数配置指南
 
-目前 Serverless API 的语音生成模型 [CosyVoice-300M](https://ai.gitee.com/serverless-api?service=720)、[ChatTTS](https://ai.gitee.com/serverless-api?service=135)、[fish-speech-1.2-sft](https://ai.gitee.com/serverless-api?service=865) 支持识别音频样本来克隆声音，您可以录制想要克隆的声音样本，生成与样本音色一致的声音。可用于定制化语音助手，虚拟角色声音制作等。
+目前 Serverless API 的语音生成模型 [CosyVoice-300M](https://ai.gitee.com/serverless-api?service=720)、[ChatTTS](https://ai.gitee.com/serverless-api?service=135)、[fish-speech-1.2-sft](https://ai.gitee.com/serverless-api?service=865) 支持识别音频的声音数据生成和样本一致的声音。可用于定制化语音助手，虚拟角色声音制作等。
 
 ![alt text](/img/serverless-api/voiceurl1.png)
 
-您可以在语音生成模型的参数设置中配置 voice_url ，以 url 的形式传递  .pt 格式的声纹文件给模型，从而生成和文件中声音特征一致的音频。
+只需在语音生成模型的参数设置中配置 voice_url ，以 url 的形式传递  .pt 格式的声纹文件给模型，即可生成和文件中声音特征一致的音频。主要包括以下几个关键步骤：
 
- .pt 格式的声纹文件，可以通过音频文件转制而成，不同模型所要求的声纹文件不同：
- - CosyVoice-300M 和 fish-speech-1.2-sft 模型可使用 Gitee AI 提供的声纹文件接口制作
- - ChatTTS 可使用 ChatTTS 声音克隆工具 http://region-9.autodl.pro:41137/ 制作。
+1. 制作.pt 格式的声纹文件，可以通过音频文件转制而成，不同模型所要求的声纹文件不同：
+- CosyVoice-300M 和 fish-speech-1.2-sft 模型可使用 Gitee AI 提供的声纹文件接口制作。
+- ChatTTS 可使用 ChatTTS 声音克隆工具 http://region-9.autodl.pro:41137/ 制作。
 
-如果您已经制作好了 .pt 格式的声纹文件，只需将其存放在公开可下载的地址，并复制下载地址至下图模型中的 voice_url 参数，输入文本并运行，即可生成与文件音色一致的声音。
+2. 将制作好的 .pt 格式的声纹文件，存放在公开可下载的地址，比如放在您的 Gitee 代码仓库中。
+
+3. 复制下载地址至下图模型中的 voice_url 参数，最后输入文本并运行，就能生成与文件音色一致的声音了。
 
 ![alt text](/img/serverless-api/voiceurl2.png)
 
 
-下面是详细的声纹文件制作指南：
+下面是详细的操作指南：
 
 ## 步骤1：制作.pt 格式的声纹文件
 
-- 
Gitee


From c7b60974ee410e099c2ef757c1115e9c13e2b37c Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E7=8E=8B=E6=B2=BB=E9=94=8B?= <77213305@qq.com>
Date: Thu, 8 Aug 2024 13:48:44 +0800
Subject: [PATCH 3/3] =?UTF-8?q?=E8=AF=AD=E9=9F=B3=E7=94=9F=E6=88=90?=
 =?UTF-8?q?=E6=A8=A1=E5=9E=8B-=E5=A3=B0=E7=BA=B9=E5=8F=82=E6=95=B0?=
 =?UTF-8?q?=E9=85=8D=E7=BD=AE=E6=8C=87=E5=8D=97?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 docs/Serverless API-voice url.md | 49 ++++++++++++++++++--------------
 1 file changed, 27 insertions(+), 22 deletions(-)

diff --git a/docs/Serverless API-voice url.md b/docs/Serverless API-voice url.md
index 5ca7d0b..41b132c 100644
--- a/docs/Serverless API-voice url.md	
+++ b/docs/Serverless API-voice url.md	
@@ -1,9 +1,14 @@
 # 语音生成模型-声纹参数配置指南
 
+## 基本介绍
+
 目前 Serverless API 的语音生成模型 [CosyVoice-300M](https://ai.gitee.com/serverless-api?service=720)、[ChatTTS](https://ai.gitee.com/serverless-api?service=135)、[fish-speech-1.2-sft](https://ai.gitee.com/serverless-api?service=865) 支持识别音频的声音数据生成和样本一致的声音。可用于定制化语音助手，虚拟角色声音制作等。
 
 ![alt text](/img/serverless-api/voiceurl1.png)
 
+
+## 简要操作步骤
+
 只需在语音生成模型的参数设置中配置 voice_url ，以 url 的形式传递  .pt 格式的声纹文件给模型，即可生成和文件中声音特征一致的音频。主要包括以下几个关键步骤：
 
 1. 制作.pt 格式的声纹文件，可以通过音频文件转制而成，不同模型所要求的声纹文件不同：
@@ -17,31 +22,31 @@
 ![alt text](/img/serverless-api/voiceurl2.png)
 
 
-下面是详细的操作指南：
+## 详细操作步骤：
 
-## 步骤1：制作.pt 格式的声纹文件
+### 步骤1：制作.pt 格式的声纹文件
 
-### **1.1 制作音频文件**
+#### **1.1 制作音频文件**
 
 使用录音软件录制普通话且吐字清晰的音频，时长建议保持在 5-15 秒，文件格式为 .mp3 或 .m4a ，建议文件不易过大。
 
 
-### **1.2 生成 CosyVoice-300M 和 fish-speech-1.2-sft 模型的声纹文件**
+#### **1.2 生成 CosyVoice-300M 和 fish-speech-1.2-sft 模型的声纹文件**
 
-将音频文件上传至 Gitee AI 提供的声音特征提取接口，下面是接口的详细说明
+将音频文件上传至 Gitee AI 提供的声音特征提取接口，下面是接口的详细说明：
 
-**接口英文名**
+**接口名**
 
 voiceFeatureExtraction
 
 **功能描述**
 
-该接口用于处理音频文件，提取关键音频特征。
+该接口用于处理音频文件，提取关键音频特征
 
 **注意事项**
 - 文件大小限制：小于 5 M
 - 支持的音频格式：.mp3 或 .m4a
-- 该接口可以提取音频中的关键特征用于后续处理和分析。
+- 该接口可以提取音频中的关键特征用于后续处理和分析
 
 **调用方式**
 
@@ -54,11 +59,11 @@ POST https://ai.gitee.com/api/inference/serverless/PH5EDMEALV1D/voice-feature-ex
 
 **请求参数**
 
-| 参数位置    | 属性          | 类型     | 必填 | 说明                                       |
-|-------------|---------------|----------|------|--------------------------------------------|
-| Header      | Authorization | string   | 是   | 接口调用访问令牌，该参数为 Header 参数。   |
-| Body        | file          | FormData | 是   | form-data 中音频文件标识。                 |
-| Body        | prompt_text   | string   | 是   | 与录音内容一致的文字描述。                 |
+| 参数位置 | 名称          | 类型   | 必填 | 说明                                                                                   |
+|----------|---------------|--------|------|----------------------------------------------------------------------------------------|
+| Header   | Authorization | string | 是   | 访问令牌，可在工作台->设置->访问令牌，进行生成获取。值格式："Bearer access_token"，示例值："Bearer t-g1044qeGEDXTB6NDJOGV4JQCYDGHRBARFTGT1234" |
+| form-data| file          | file   | 是   | 语音内容。注意：Content-Type为application/octet-stream，示例值: 二进制文件             |
+| form-data| prompt_text   | string | 是   | 提词内容。注意：与录音内容一致的文字描述。                                             |
 
 
 **返回参数**
@@ -78,17 +83,17 @@ HTTP状态码为 200 时，表示成功。返回文件二进制流。
 
 **使用 APIfox 接口工具请求示例**
 
-    1） 新建接口井输入接口地址.
+    1） 新建接口井输入接口地址。
 
-    2） 添加 Authorization 参数，参数值可以在 Gitee Al 工作台-访问令牌获取.
+    2） 添加 Authorization 参数，参数值可以在 Gitee Al 工作台-访问令牌获取。
 
-    3） 选择 Body - form-data .
+    3） 选择 Body - form-data 。
 
-    4） 添加 file 参数，并上传音频文件.
+    4） 添加 file 参数，并上传音频文件。
 
-    5） 添加 prompt_text 參数，參数值是和录音内容一致的文字描述，添加完成后点击发送.
+    5） 添加 prompt_text 參数，參数值是和录音内容一致的文字描述，添加完成后点击发送。
 
-    6） 请求成功后，下载接口返回的文件，并修改文件名为 xxxx.pt.
+    6） 请求成功后，下载接口返回的文件，并修改文件名为 xxxx.pt。
 
 ![alt text](/img/serverless-api/voiceurl3.png)
 
@@ -96,7 +101,7 @@ HTTP状态码为 200 时，表示成功。返回文件二进制流。
 
 ![alt text](/img/serverless-api/voiceurl5.png)
 
- ### **1.3 生成 ChatTTS 模型的声纹文件**
+#### **1.3 生成 ChatTTS 模型的声纹文件**
 
 
    1） 访问 Chattts 的声音克隆工具 http://region-9.autodl.pro:41137/
@@ -112,7 +117,7 @@ HTTP状态码为 200 时，表示成功。返回文件二进制流。
 ![alt text](/img/serverless-api/voiceurl5-2.png)
 
 
-## 步骤2：上传声纹文件并获取下载地址
+### 步骤2：上传声纹文件并获取下载地址
 
 语音生成模型的 voice_url 参数需要读取声纹文件，所以我们需要将声纹文件上传至网盘或其他可下载的公共空间，并获取文件下载的 url，配置到语音模型的 voice_url 参数即可。
 
@@ -122,7 +127,7 @@ HTTP状态码为 200 时，表示成功。返回文件二进制流。
 ![alt text](/img/serverless-api/voiceurl7.png)
 ![alt text](/img/serverless-api/voiceurl8.png)
 
-## 步骤3：在模型参数中粘贴地址
+### 步骤3：在模型参数中粘贴地址
 
 根据您生成的 pt 文件类型，选择 [CosyVoice-300M](https://ai.gitee.com/serverless-api?service=720)、[ChatTTS](https://ai.gitee.com/serverless-api?service=135)、[fish-speech-1.2-sft](https://ai.gitee.com/serverless-api?service=865) ，粘贴声纹文件下载地址到 voice_url 参数，输入文字并运行。即可生成和声纹音色一致的声音。
 
-- 
Gitee