检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
支持哪些语言 录音文件识别、语音合成支持中文普通话。 一句话识别和实时语音识别支持中文普通话,带方言口音的普通话和方言(四川话、粤语和上海话)。 父主题: 产品咨询类
等配置信息。服务端会返回一个开始响应。 发送音频阶段客户端会分片发送音频数据,服务会返回识别结果或者其他事件,如音频超时,静音部分过长等。 音频发送结束后,客户端会发送结束请求,服务端会返回end响应。 实时语音识别必须客户端要主动断开连接。当服务端超过20s没有收到客户的任何数
_format”参数设置的值,默认为wav格式。 语音合成代码示例请参考SDK,SDK已对Base64转音频过程进行封装,可以直接获取音频文件。 状态码: 400 表9 响应Body参数 参数 参数类型 描述 error_code String 调用失败时的错误码。 调用成功时无此字段。
识别结果响应 服务端在收到客户端发送的连续音频数据后, 当服务端识别出结果后会实时向客户端按句推送识别结果响应消息, 以json字符串形式放置在text message中。 响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为RESULT,表示识别结果响应。
Programming Interface,应用程序编程接口)获取语音交互结果。例如用户通过语音识别功能,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
SIS.0304报错 问题现象 客户端长时间没有发送语音,服务端超过20s没有收到语音,就会报这个错误。 解决方案 1. 检查代码是否存在发送音频后睡眠过多时间。 2. 检查是否发送end请求,是否关闭客户端。超过20s没有发送数据同时也没有断开连接,就会报该错误。在使用完毕后一定要记得断开与服务端连接。
严重错误响应 功能介绍 严重错误,通常指流程无法继续的情况。出现严重错误响应时,流程不再继续,服务器端会主动断连。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为FATAL_ERROR,表示此次合成发生不可恢复的错误。 trace_id
当wss握手请求收到成功响应后,客户端到服务端的通信协议会升级为Websocket协议。通过Websocket协议,客户端发送开始识别请求,用于配置实时语音识别的配置信息。 请求消息 表1 参数说明 参数名 是否必选 参数类型 说明 command 是 String 表示客户端发送开始识别请求,参数值需设置为START。
当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。 支持中文、英文、中英文,文本不长于500个字符。
采用Base64编码的随机16字节长的字符序列。用来发送给服务器使用,服务器会使用此字段组装成另一个key值放在握手返回信息里发送客户端。 x3JJHMbDL1EzLkh9GBhXDw== Sec-WebSocket-Version 发送WebSocket握手请求时,包含该头域。 标识了客户端支持WebSocket协议的版本。
当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。 音频采样率8KHz或者16KHz,采样位数8bit或者16bit。
语音合成结束响应 功能介绍 当合成引擎处理完合成请求后,会发送合成结束响应。客户端收到该响应后关闭当前Websocket链接即可。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为END,表示语音合成结束。 trace_id String
应用场景 语音客服质检 识别客服、客户的语音,转换为文本。进一步通过文本检索,检查有没有违规、敏感词、电话号码等信息。 会议记录 对会议记录的音频文件,进行快速的识别,转化成文字,方便进行会议记录。 语音短消息 通过语音发送或者接收短消息时,将音频短消息转文字,提升阅读效率和交互体验。 游戏娱乐
开始合成响应 功能介绍 语音合成引擎收到实时语音合成请求时,首先向客户端发送合成开始响应,表示开始处理语音合成请求。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为START,表示开始语音合成。 trace_id String
事件响应 服务器端检测到某些事件时,会给出如下响应消息,以json字符串形式放置在text message中。 响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为EVENT,表示开始识别响应。 trace_id String 服
当wss握手请求收到成功响应后,客户端到服务端的通信协议会升级为Websocket协议。通过Websocket协议,客户端发送开始识别请求,用于配置一句话识别的配置信息。 请求消息 表3 参数说明 参数名 是否必选 参数类型 说明 command 是 String 表示客户端发送开始识别请求,参数值需设置为START。
片传输,服务器端可以返回中间临时转写结果,在最后返回最终转写结果。 表2 一句话识别接口说明 接口类型 说明 一句话识别 一句话识别接口,用于短语音的同步识别。一次性上传整个音频,响应中即返回识别结果。 表3 录音文件识别接口说明 接口类型 说明 录音文件识别 录音文件识别接口,
Boolean 是否选择合成的音频数据保存到本地,默认不保存。 saved_path 否 String 选择保存到本地的路径,需要具体到音频文件,如D:/test.wav。 响应参数 Python SDK响应结果为Json格式,详见表4。调用失败处理方法请参见错误码。 表4 响应结果
域,当前支持的区域请参见地区与终端节点。 华北-北京四,为推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。 父主题: 区域与可用区
找到原来已下载的AK/SK文件,文件名一般为:credentials.csv。 如下图所示,文件包含了租户名(User Name),AK(Access Key Id),SK(Secret Access Key)。 图1 credential.csv文件内容 AK/SK生成步骤: 登录管理控制台。