检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Websocket握手请求 功能介绍 本接口提供实时流式语音合成。用户每次建立连接,发送待合成文本,服务端将合成结果响应给用户。一次连接只能发送一次文本,如果有多段文本需要合成,需要多次建立连接。实时语音合成和语音合成均属于语音合成接口,采用完全相同的计费规则,两者价格梯度可互相叠加,可参考价格计算器。
查询热词表信息 功能介绍 通过热词表id查询热词表的信息和内容。详细使用指导请参见SIS服务使用简介章节。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{pro
调用热词时,需确保调用热词的区域与创建热词的区域一致。如下图位置可查询创建热词所在区域: 图1 热词创建区域查询 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 约束与限制 所有含英文的热词均需
将标记的内容替换为此值。 标签关系: 可以包含文本 。 示例: <sub alias="保罗">Paul</sub>是德国人 父主题: 语音合成接口
实时语音合成响应 开始合成响应 语音合成结果响应 语音合成结束响应 语音合成错误响应 严重错误响应 父主题: 实时语音合成接口
Websocket握手请求 流式一句话 实时语音识别连续模式 实时语音识别单句模式 父主题: 实时语音识别接口
提交录音文件识别任务 录音文件识别接口,用于识别长录音文件,支持中文普通话、四川话识别。录音文件放在OBS(对象存储服务)或公网可访问的服务器上。 由于录音文件识别通常会需要较长的时间,因此识别是异步的,即接口分为创建识别任务和查询任务状态两个接口。创建识别任务接口创建任务完成后返回job
实时语音识别响应 开始识别请求响应 事件响应 识别结果响应 错误响应 严重错误响应 结束识别请求响应 父主题: 实时语音识别接口
实时语音合成请求 开始语音合成请求 父主题: 实时语音合成接口
查询热词表列表 功能介绍 查询用户所有热词表列表。详细使用指导请参见SIS服务使用简介章节。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{pro
获取录音文件识别结果 功能介绍 该接口用于获取录音文件识别结果及识别状态。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
实时语音识别请求 实时语音识别工作流程 开始识别 发送音频数据 结束识别 父主题: 实时语音识别接口
结束识别 功能介绍 对于识别中的对话,需要在Websocket上发送“结束识别”的请求来取消或结束识别。 "结束识别"请求使用文本类型的数据帧(text message)发送,命令和参数以json字符串的形式提供。 请求消息 表1 参数说明 参数名 是否必选 参数类型 说明 command
错误响应 错误响应,通常是指不影响流程,但当前会话无法再进行下去的错误,包括如下情况: 配置串错误,包括存在不识别的配置串,或者配置串值的范围不合法。 时序不正确,比如连续发送两次“开始识别”指令。 识别过程中发生错误,比如音频解码发生错误。 出现错误响应时,如果已经在一个会话中
开始合成响应 功能介绍 语音合成引擎收到实时语音合成请求时,首先向客户端发送合成开始响应,表示开始处理语音合成请求。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为START,表示开始语音合成。 trace_id String
事件响应 服务器端检测到某些事件时,会给出如下响应消息,以json字符串形式放置在text message中。 响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为EVENT,表示开始识别响应。 trace_id String 服
开始识别 功能介绍 当wss握手请求收到成功响应后,客户端到服务端的通信协议会升级为Websocket协议。通过Websocket协议,客户端发送开始识别请求,用于配置实时语音识别的配置信息。 请求消息 表1 参数说明 参数名 是否必选 参数类型 说明 command 是 String
流式一句话 功能介绍 流式一句话模式的语音长度限制为一分钟,适合于对话聊天等识别场景。 该接口支持用户将一整段语音分段,以流式输入,最后得到识别结果。实时语音识别引擎在获得分段的输入语音的同时,就可以同步地对这段数据进行特征提取和解码工作,而不用等到所有数据都获得后再开始工作。因
表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。 用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。 Enterprise-Project-Id
发送音频数据 在收到“开始识别”的响应之后,可以开始发送音频数据。为节省流量,音频以二进制数据帧形式(binary message)的方式发送。 音频数据将分片发送,也即在获得一定量音频数据的同时就可以发送一个binary message,每个分片建议在50ms~1000ms之间