检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用实时语音识别 前提条件 确保已按照配置CPP环境(Windows)配置完毕。 请参考SDK(websocket)获取最新版本SDK包。 初始化Client 初始化RasrClient,其参数包括AuthInfo。 表1 AuthInfo 参数名称 是否必选 参数类型 描述 ak
实时语音合成响应 开始合成响应 语音合成结果响应 语音合成结束响应 语音合成错误响应 严重错误响应 父主题: 实时语音合成接口
时间戳数据 功能介绍 实时语音合成服务在生成音频流的同时,可以生成每个汉字/英文单词的时间戳信息。该信息可用于视频字幕和驱动数字人口型。 参数设置 设置请求参数subtitle为"word_level"或"phoneme_level"时,开启时间戳功能。 响应信息 表1 响应参数
语音合成后输出的音频格式是什么 语音合成后返回一组Base64编码格式的语音数据,用户需要用编程语言或者sdk将返回的Base64编码格式的数据解码成byte数组,再保存为wav格式的音频。 语音合成(Text To Speech ,TTS服务)服务的音频格式则根据接口中audi
实时语音识别连续模式 功能介绍 连续识别模式的语音总长度限制为五小时,适合于会议、演讲和直播等场景。 连续识别模式在流式识别的基础上,结合了语音的端点检测功能。语音数据也是分段输入,但是连续识别模式将会在处理数据之前进行端点检测,如果是语音才会进行实际的解码工作,如果检测到静音,
实时语音合成请求 开始语音合成请求 父主题: 实时语音合成接口
在流式一句话模式下: 不会返回VOICE_START、VOICE_END、EXCEEDED_SILCENCE事件。 在实时语音识别单句模式下: 返回VOICE_START事件,表示检测到语音,此时IVR可以做打断。 返回VOICE_END事件后,表示一句话结束,后续的音频将被忽略,不会再进行识别。
实时语音识别请求 实时语音识别工作流程 开始识别 发送音频数据 结束识别 父主题: 实时语音识别接口
与实时语音识别引擎握手连接,并发送语音数据和接收转写结果,最后关闭Websocket连接。 获取Websocket握手请求wss-URI请参见Websocket握手请求。 获取实时语音识别请求消息格式信息请参见实时语音识别请求。 获取实时语音识别响应消息格式请参见实时语音识别响应。
0002", "error_msg": "***" } 状态码 状态码请参见状态码。 错误码 错误码请参见错误码。 父主题: 实时语音识别响应
cancel 否 Boolen 是否取消返回识别结果。 true:表示取消识别,也即丢弃识别中和未识别的语音数据并结束,不返回剩余的识别结果。 false:表示继续处理识别中和未识别的语音数据直到处理完所有之前发送的数据。 默认是false。 示例 { "command": "END"
结束识别请求响应 服务器端收到“结束识别”请求时或语音识别过程中发生错误,服务端会向客户端推送如下响应消息,以json字符串形式放置在text message中。 响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为END,表示结束识别响应。
chinese_16k_it 支持采样率为16k的IT会议语音识别。区域仅支持cn-north-4。 chinese_8k_common 支持采样率为8k的中文普通话语音识别。 chinese_16k_common 支持采样率为16k的中文普通话语音识别。 表4 audio_format取值范围
语音合成接口 语音合成 SSML标记语言介绍
SSML 是一种基于 XML 的语音合成标记语言。使用 SSML 可以更加准确、具体的定义合成音频的效果,包括控制断句分词方式、发音、速度、停顿、声调和音量等特征。相比文本输入进行合成,有更好的操作灵活性。 华为云语音合成服务的SSML实现,基于W3C的语音合成标记语言版本1.1,但并
0002", "error_msg": "***" } 状态码 状态码请参见状态码。 错误码 错误码请参见错误码。 父主题: 实时语音识别响应
"error_msg": "wait voice timeout" } 状态码 状态码请参见状态码。 错误码 错误码请参见错误码。 父主题: 实时语音合成响应
"score": 0.0 }, }, ] } 状态码 状态码请参见状态码。 错误码 错误码请参见错误码。 父主题: 实时语音识别响应
实时语音合成接口 Websocket握手请求 实时语音合成请求 实时语音合成响应
"567e8537-a89c-13c3-a882-826321939651" } 状态码 状态码请参见状态码。 错误码 错误码请参见错误码。 父主题: 实时语音识别响应