# websdk-java-demo **Repository Path**: i-flytek-op/websdk-java-demo ## Basic Information - **Project Name**: websdk-java-demo - **Description**: No description available - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 5 - **Forks**: 1 - **Created**: 2021-04-28 - **Last Updated**: 2025-08-29 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 一、JAVA-SDK-DEMO信息获取与运行 ## 1、AI能力使用的 APPID、APISecret、APIKey获取 请点击[控制台](https://console.xfyun.cn/services/iat)进行获取并填写到src/main/resources/test.properties文件! ## 2、实时语音转写rtaAPIKey获取 请点击[实时语音转写控制台](https://console.xfyun.cn/services/rta)进行获取并填写到src/main/resources/test.properties文件! ## 3、音频文件语音转写lfasrSecretKey获取 请点击[音频文件语音转写控制台](https://console.xfyun.cn/services/lfasr)进行获取并填写到src/main/resources/test.properties文件! ## 4、星火大模型批处理sparkBatchKey获取 请点击[星火大模型批处理](https://console.xfyun.cn/services/bm3.5batch)进行获取并填写到src/main/resources/test.properties文件! ## 5、星辰Maas平台key获取 sparkApiPassword、maasApiKey、maasResourceId、maasModelId 请点击[星辰Maas平台](https://maas.xfyun.cn/)模型卡片进行获取并填写到src/main/resources/test.properties文件! ## 4、DEMO运行说明 获取到信息后填写到项目路径src/main/resources/test.properties文件中,找到能力对应的主类运行即可。能力与主类对应说明如下: | AI能力名称 | 对应主类名称 | | ------------------------------------------------------------ | ------------------------------ | | 语音听写 | IatClientApp | | 实时语音转写 | RtasrClientApp | | 音频文件语音转写 | LfasrClientApp | | 语音合成 | TtsClientApp | | 语音评测 | IseClientApp | | 小牛翻译及自研机器翻译 | TranslateApp | | 文本纠错 | TextCheckClientApp | | 智能PPT(新) | AIPPV2TClientApp | | 静默活体检测 | AntiSpoofClientApp | | 银行卡识别 | BankcardClientApp | | 名片识别 | BusinessCardClientApp | | 人脸比对 | FaceCompareClientApp | | 人脸检测和属性分析 | FaceDetectClientApp | | 配合式活体检测 | FaceStatusClientApp | | 人脸比对sensetime | FaceVerificationClientApp | | 指尖文字识别 | FingerOcrClientApp | | 印刷文字识别和手写文字识别 | GeneralWordsClientApp | | 性别年龄识别 | IgrClientApp | | 场景识别和物体识别 | ImageRecClientApp | | 图片类识别(营业执照,出租车发票,火车票,增值税发票 ,身份证,印刷文字) | ImageWordClientApp | | 身份证识别 营业执照识别 增值税发票识别 印刷文字识别(多语种) | IntsigOcrClientApp | | 场所识别 | PlaceRecClientApp | | 歌曲识别 | QbhClientApp | | 静默活体检测sensetime | SilentDetectionClientApp | | 人脸检测和属性分析 | TupApiClientApp | | 人脸水印照比对 | WatermarkVerificationClientApp | | 图片生成hidream | HiDreamClientApp | | 图片生成 | ImageGenClientApp | | 图像理解 | ImageUnderstandClientApp | | 星辰Mass平台 | MaasClientApp | | 超拟人合成 | OralClientApp | | 简历生成 | ResumeGenClientApp | | 星火大模型批处理 | SparkBatchClientApp | | 星火大模型 | SparkChatClientApp | | 星火自定义大模型 | SparkCustomClientApp | | 多语种大模型语音听写 | SparkIatMulLangClientApp | | 方言大模型语音听写 | SparkIatMulZhClientApp | | 中文大模型语音听写 | SparkIatZhClientApp | | 一句话复刻 | VoiceCloneClientApp | | 一句话训练 | VoiceTrainClientApp | | 音频合规 | AudioComplianceClientApp | | 图片合规 | ImageComplianceClientApp | | 同声传译 | SimInterpClientApp | | 文本合规 | TextComplianceClientApp | | 文本校对 | TextProofreadClientApp | | 文本改写 | TextRewriteClientApp | | 视频合规 | VideoComplianceClientApp | | 词库操作 | WordLibClientApp | | sinosecu通用票证识别 | SinoOCRClientApp | | 通用票证识别 | TicketOCRClientApp | | 图片文档还原 | PDRecClientApp | | 星火智能体 | AgentClientApp | | 超拟人交互 | OralChatClientApp | | 星火助手 | SparkAssistantClientApp | | 大模型通用文档识别 | LLMOcrClientApp | # 二、讯飞开放平台常用AI能力介绍与常用参数说明 ## 1、语音听写(流式版) ### (1)功能说明 语音听写流式接口,用于1分钟内的即时语音转文字技术,支持实时返回识别结果,达到一边上传音频一边获得识别文本的效果。 ### (2)常用参数 以下仅为常用参数说明,详情请点击[语音听写文档](https://www.xfyun.cn/doc/asr/voicedictation/API.html#%E6%8E%A5%E5%8F%A3%E8%AF%B4%E6%98%8E) 查看。 | 参数名 | 类型 | 必传 | 描述 | 示例 | |---------|--------|----|-----------------------------------------------------------------------------------------------------------|--------| vad_eos | int | 否 | 用于设置端点检测的静默时间,单位是毫秒。
即静默多长时间后引擎认为音频结束。
默认2000(小语种除外,小语种不设置该参数默认为未开启VAD)。 | 3000 | | dwa | string | 否 | (仅中文普通话支持)动态修正
wpgs:开启流式结果返回功能
*注:该扩展功能若未授权无法使用,可到控制台-语音听写(流式版)-高级功能处免费开通;若未授权状态下设置该参数并不会报错,但不会生效。* | "wpgs" | ## 2、实时语音转写 ### (1)功能说明 实时语音转写(Real-time ASR)基于深度全序列卷积神经网络框架,通过 WebSocket 协议,建立应用与语言转写核心引擎的长连接,开发者可实现将连续的音频流内容,实时识别返回对应的文字流内容。 支持的音频格式: 采样率为16K,采样深度为16bit的pcm_s16le音频 ### (2)常用参数 以下仅为常用参数说明,详情请点击[实时语音转写文档](https://www.xfyun.cn/doc/asr/rtasr/API.html)查看。 |参数名|类型|必传|描述|示例| |---|---|---|---|---| |lang|string|否|实时语音转写语种,不传默认为中文 |语种类型:中文、中英混合识别:cn;英文:en;小语种及方言可到控制台-实时语音转写-方言/语种处添加,添加后会显示该方言/语种参数值。传参示例如:" lang=en"| |targetLang|string|否|目标翻译语种|例如:targetLang="en"
如果使用中文实时翻译为英文传参示例如下:
" &lang=cn&transType=normal&transStrategy=2&targetLang=en"
注意:需控制台开通翻译功能| ## 3、音频文件语音转写 ### (1)功能说明 语音转写(Long Form ASR)基于深度全序列卷积神经网络,将长段音频(5小时以内)数据转换成文本数据,为信息处理和数据挖掘提供基础。 转写的是已录制音频(非实时),音频文件上传成功后进入等待队列,待转写成功后用户即可获取结果,返回结果时间受音频时长以及排队任务量的影响。 如遇转写耗时比平时延长,大概率表示当前时间段出现转写高峰,请耐心等待即可,我们承诺有效任务耗时最大不超过5小时 。 另外,为使转写服务更加通畅,请尽量转写5分钟以上的音频文件。 ### (2)常用参数 以下仅为常用参数说明,详情请点击[音频文件语音转写文档](https://www.xfyun.cn/doc/asr/ifasr_new/API.html)查看。 |参数名|类型|必传|描述|示例| |---|---|---|---|---| |speaker_number|string|否|发音人个数,可选值:0-10,0表示盲分
*注* :发音人分离目前还是测试效果达不到商用标准,如测试无法满足您的需求,请慎用该功能。|默认:2(适用通话时两个人对话的场景)| |has_seperate|string|否|转写结果中是否包含发音人分离信息|false或true,默认为false| |role_type|string|否|支持两种参数
1: 通用角色分离
2: 电话信道角色分离(适用于speaker_number为2的说话场景)该字段只有在开通了角色分离功能的前提下才会生效,正确传入该参数后角色分离效果会有所提升。 如果该字段不传,默认采用 1 类型| |language|string|否|语种
cn:中英文&中文(默认)
en:英文(英文不支持热词)|cn| ## 4、语音合成(流式版) ### (1)功能说明 语音合成流式接口将文字信息转化为声音信息,同时提供了众多极具特色的发音人(音库)供您选择,可以在 这里 在线体验发音人效果。 ### (2)常用参数 以下仅为常用参数说明,详情请点击[语音合成文档](https://www.xfyun.cn/doc/tts/online_tts/API.html)查看。 | 参数名 | 类型 | 必传 | 描述 | 示例 | |-----|--------|----|---------------------------------------------------------------|-----------| vcn | string | 是 | 发音人,可选值:请到控制台添加试用或购买发音人,添加后即显示发音人参数值 | "xiaoyan" | | rdn | string | 否 | 合成音频数字发音方式
0:自动判断(默认值)
1:完全数值
2:完全字符串
3:字符串优先 | "0" | ## 5、语音评测(流式版) ### (1)功能说明 通过智能语音技术自动对发音水平进行评价、发音错误、缺陷定位和问题分析的能力接口。涉及的核心技术主要可分为两个部分:中文普通话发音水平自动评测技术、英文发音水平自动评测技术。 ### (2)常用参数 以下仅为常用参数说明,详情请点击[语音评测文档](https://www.xfyun.cn/doc/Ise/IseAPI.html)查看。 | 参数名 | 类型 | 必传 | 描述 | 示例 | |---------------|--------|----|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------| | ent | string | 是 | 中文:cn_vip
英文:en_vip | "cn_vip" | | category | string | 是 | 中文题型:
read_syllable(单字朗读,汉语专有)
read_word(词语朗读)
read_sentence(句子朗读)
read_chapter(篇章朗读)
英文题型:
read_word(词语朗读)
read_sentence(句子朗读)
read_chapter(篇章朗读)
simple_expression(英文情景反应)
read_choice(英文选择题)
topic(英文自由题)
retell(英文复述题)
picture_talk(英文看图说话)
oral_translation(英文口头翻译) | "read_sentence" | text | string | 是 | 待评测文本 utf8 编码,需要加utf8bom 头 | '\uFEFF'+text | | tte | string | 是 | 待评测文本编码
utf-8
gbk | "utf-8" | | extra_ability | string | 否 | 拓展能力(生效条件ise_unite="1", rst="entirety")多维度分信息显示(准确度分、流畅度分、完整度打分)extra_ability值为multi_dimension(字词句篇均适用,如选多个能力,用分号;隔开。例如:add("extra_ability"," syll_phone_err_msg;pitch;multi_dimension"))单词基频信息显示(基频开始值、结束值)extra_ability值为pitch ,仅适用于单词和句子题型音素错误信息显示(声韵、调型是否正确)extra_ability值为syll_phone_err_msg(字词句篇均适用,如选多个能力,用分号;隔开。例如:add("extra_ability"," syll_phone_err_msg;pitch;multi_dimension")) | "multi_dimension" | | aue | string | 否 | 音频格式
raw: 未压缩的pcm格式音频或wav(如果用wav格式音频,建议去掉头部)
lame: mp3格式音频
speex-wb;7: 讯飞定制speex格式音频(默认值) | "raw" | | auf | string | 否 | 音频采样率
默认 audio/L16;rate=16000 | "audio L16;rate=16000" | | group | string | 否 | 针对群体不同,相同试卷音频评分结果不同 (仅中文字、词、句、篇章题型支持),此参数会影响准确度得分
adult(成人群体,不设置群体参数时默认为成人)
youth(中学群体
pupil(小学群体,中文句、篇题型设置此参数值会有accuracy_score得分的返回)) | "adult" | | grade | string | 否 | 设置评测的学段参数 (仅中文题型:中小学的句子、篇章题型支持)
junior(1,2年级)
middle(3,4年级)
senior(5,6年级) | "middle" | | rst | string | 否 | 评测返回结果与分制控制(评测返回结果与分制控制也会受到ise_unite与plev参数的影响)
完整:entirety(默认值)
中文百分制推荐传参(rst="entirety"且ise_unite="1"且配合extra_ability参数使用)
英文百分制推荐传参(rst="entirety"且ise_unite="1"且配合extra_ability参数使用)
精简:plain(评测返回结果将只有总分),如:
| "entirety" | | ise_unite | string | 否 | 返回结果控制
0:不控制(默认值)
1:控制(extra_ability参数将影响全维度等信息的返回) | "0" | | plev | string | 否 | 在rst="entirety"(默认值)且ise_unite="0"(默认值)的情况下plev的取值不同对返回结果有影响。
plev:0(给出全部信息,汉语包含rec_node_type、perr_msg、fluency_score、phone_score信息的返回;英文包含accuracy_score、serr_msg、 syll_accent、fluency_score、standard_score、pitch信息的返回) | "0" |