检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
oject_id”参数会自动填充,无需填写。 填写待合成文字。 在text中输入待合成的文本,其中config参数为合成音频的音色、语速、格式等设置项,可使用默认值。 单击“调试”按钮,获取识别结果。 父主题: 调用API或SDK
工作流程 从流程图可以看出,实时语音合成只需要发送1次开始请求,会陆续收到开始响应、合成音频的分片响应、结束响应。 wss-URI wss-URI格式 wss /v1/{project_id}/rtts 参数说明 表1 参数说明 名称 是否必选 说明 project_id 是 项目编号。获取方法,请参见获取项目ID。
a,和config两个参数,其中data为识别音频的base64格式的字符串。Config参数详见表1。 表1 Config 参数 是否必选 参数类型 描述 audioFormat 是 String 支持语音的格式,请参考表 audio_format取值范围。 property 是
RttsRequest设置参数 表3 RttsRequest设置参数 方法名称 是否必选 参数类型 描述 SetAudioFormat 否 String 设置语音格式,默认pcm。 SetAudioProperty 否 String 设置语音合成特征字符串,{language}_{speaker}_{d
支持pcm16k16bit、pcm8k16bit、ulaw16k8bit、ulaw8k8bit、alaw16k8bit、wav、amr、amrwb等多种格式,详见API参考文档中的“audio_format取值范围”。 音频时长不超过1分钟。 支持中文普通话、方言和英语的语音识别,其中方言包括:四川话、粤语和上海话。
url is unreachable) 语音合成的base64编码如何使用 录音文件识别多久可以返回结果 语音合成能不能支持返回立体音(双声道)格式的音频 如何解决“The silence time is too long, and the audio will not be recognized”报错
RasrRequest。 表2 RasrRequest 参数名称 是否必选 参数类型 描述 audioFormat 是 String 音频格式,支持pcm等,如pcm8k16bit,参见《API参考》中开始识别章节。 property 是 String 属性字符串,languag
息体类型的请求头“Content-Type”,请求鉴权信息等。 如下公共消息头需要添加到请求中。 Content-Type:消息体的类型(格式),必选,默认取值为“application/json”。 X-Auth-Token:用户Token,可选,当使用Token方式认证时,必
完一句话后,往往会等待后续的交互操作,例如聆听根据识别结果播报的相关内容,因而没有必要继续识别后续的音频。 wss-URI wss-URI格式: wss /v1/{project_id}/rasr/sentence-stream 参数说明 表1 参数说明 参数名 是否必选 说明 project_id
有效地利用CPU。而流式识别通常和客户端的端点检测功能相结合,只将检测到的有效语音段上传到服务器进行识别。 wss-URI wss-URI格式 wss /v1/{project_id}/rasr/continue-stream 参数说明 表1 参数说明 参数名 是否必选 说明 project_id
String 配置信息。可参照表6。 表6 Config 参数名称 是否必选 参数类型 描述 audio_format 否 String 待合成的音频格式,可选mp3,wav等,默认wav。具体信息请参见《API参考》中语音合成章节。 pitch 否 Integer 音高,[-500,500]
可定制特定垂直领域的语言层模型,可识别更多专有词汇和行业术语,进一步提高识别准确率。 一句话识别 可以实现1分钟以内音频到文字的转换。对于用户上传的二进制音频格式数据,系统经过处理,生成语音对应的文字,支持的语言包含中文普通话、方言以及英语。方言当前支持四川话、粤语和上海话。 产品优势 高识别率 基
Object 配置信息,详见下表。 表8 Config 参数名称 是否必选 参数类型 描述 audioFormat 是 String 音频格式,支持pcm,alaw,ulaw等,如pcm8k16bit,具体规格请参见《API参考》中开始识别章节。 property 是 String
Object 配置信息,详见表8。 表8 Config 参数名称 是否必选 参数类型 描述 audioFormat 是 String 音频格式,支持pcm,alaw,ulaw等,如pcm8k16bit,参见《API参考》中开始识别章节。 property 是 String 属性字