检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用实时语音识别 前提条件 确保已按照配置CPP环境(Windows)配置完毕。 初始化Client 初始化RasrClient,其参数包括AuthInfo。 表1 AuthInfo 参数名称 是否必选 参数类型 描述 ak 是 String 用户的ak,可参考AK/SK认证。 sk
快递网站服务器成功登录语音通话平台。 Jack登录快递网站服务器。 Jack输入自己的号码使用语音回呼业务联系客服。 语音回呼请求上报至语音通话平台。 快递网站服务器调用“语音回呼场景API”实现整个呼叫过程。 语音通话平台呼叫Jack。 语音通话平台呼叫客服Sophia。 若
语音验证码API使用说明 API列表 API名称 API功能 语音验证码场景API 请求语音通话平台向指定用户播放语音验证码。 语音验证码呼叫状态通知API 语音通话平台向SP推送接收语音通话业务用户呼叫时的状态信息,如呼入、呼出、振铃、应答、挂机等状态的信息。 语音验证码话单通知API
语音合成结果响应 音频流数据 时间戳数据 父主题: 实时语音合成响应
语音合成结束响应 功能介绍 当合成引擎处理完合成请求后,会发送合成结束响应。客户端收到该响应后关闭当前Websocket链接即可。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为END,表示语音合成结束。 trace_id String
实时语音识别连续模式 功能介绍 连续识别模式的语音总长度限制为五小时,适合于会议、演讲和直播等场景。 连续识别模式在流式识别的基础上,结合了语音的端点检测功能。语音数据也是分段输入,但是连续识别模式将会在处理数据之前进行端点检测,如果是语音才会进行实际的解码工作,如果检测到静音,
时间戳数据 功能介绍 实时语音合成服务在生成音频流的同时,可以生成每个汉字/英文单词的时间戳信息。该信息可用于视频字幕和驱动数字人口型。 参数设置 设置请求参数subtitle为"word_level"或"phoneme_level"时,开启时间戳功能。 响应信息 表1 响应参数
语音合成错误响应 功能介绍 合成引擎处理合成请求时如果发生错误则返回该响应。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为ERROR,表示错误响应。 trace_id String 服务内部的令牌,可用于在日志中追溯具体流程。
语音合成后输出的音频格式是什么 语音合成后返回一组Base64编码格式的语音数据,用户需要用编程语言或者sdk将返回的Base64编码格式的数据解码成byte数组,再保存为wav格式的音频。 语音合成(Text To Speech ,TTS服务)服务的音频格式则根据接口中audi
打车软件服务器成功登录语音通话平台。 Jane注册打车软件,输入电话号码后,点击“获取语音验证码”。 打车软件服务器发起语音验证码请求,请求语音通话平台向Jane播放语音验证码。 打车软件服务器调用“语音验证码API”实现整个呼叫过程。 语音通话平台呼叫Jane。 Jane接听。 语音通话平台向Jane播放语音验证码。
如何查看语音模板内容?是否支持下载或迁移? 已添加成功的语音模板内容可在语音模板管理页面查看。 不支持下载。不支持华为云账号之间的迁移,同一个语音模板可供同一个华为云账号下的不同应用使用。 父主题: 放音文件及语音模板配置
语音模板中的变量是如何填充的? 在语音通话控制台添加语音模板,并在调用语音通知API时携带模板ID(templateId)和变量值列表(templateParas),系统会自动将模板内容通过TTS服务转换成语音,向用户播放。 父主题: 放音文件及语音模板配置
实时语音合成请求 开始语音合成请求 父主题: 实时语音合成接口
语音通话的放音文件是固定的还是要用户上传呢? 语音通话支持各种场景的自定义放音,自定义放音使用的文件需要提前上传到语音通话平台并通过审核后才可使用,详情请参考添加放音文件。 父主题: 放音文件及语音模板配置
0002", "error_msg": "***" } 状态码 状态码请参见状态码。 错误码 错误码请参见错误码。 父主题: 实时语音识别响应
cancel 否 Boolen 是否取消返回识别结果。 true:表示取消识别,也即丢弃识别中和未识别的语音数据并结束,不返回剩余的识别结果。 false:表示继续处理识别中和未识别的语音数据直到处理完所有之前发送的数据。 默认是false。 示例 { "command": "END"
附录 名词解释 基本概念、云服务简介、专有名词解释 语音交互服务SIS:以API的形式,对外提供语音转文本以及文本转语音的服务。 函数工作流 FunctionGraph:FunctionGraph是一项基于事件驱动的函数托管计算服务。使用FunctionGraph函数,只需编写业
在流式一句话模式下: 不会返回VOICE_START、VOICE_END、EXCEEDED_SILCENCE事件。 在实时语音识别单句模式下: 返回VOICE_START事件,表示检测到语音,此时IVR可以做打断。 返回VOICE_END事件后,表示一句话结束,后续的音频将被忽略,不会再进行识别。
实时语音识别请求 实时语音识别工作流程 开始识别 发送音频数据 结束识别 父主题: 实时语音识别接口
结束识别请求响应 服务器端收到“结束识别”请求时或语音识别过程中发生错误,服务端会向客户端推送如下响应消息,以json字符串形式放置在text message中。 响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为END,表示结束识别响应。