检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
、控制口令等场景。 实时语音识别引擎的单句识别模式,和连续识别模式类似,也会进行语音的端点检测,如果检测到静音,将直接丢弃,检测到语音才会馈入核心进行实际的解码工作,如果检测到一段语音的结束点,就会将当前这一段的识别结果返回。和连续识别不同的是,在单句模式下,返回第一段的识别结果
withEndpoint(endpoint) .build(); endpoint是华为云各服务应用区域和各服务的终端节点,详情请查看 地区和终端节点。 请求参数 请求类为RunTtsRequest,其中包含参数类PostCustomTTSReq,该类包含两个参数text(待
是 String 区域,如cn-north-4,参考终端节点。 projectId 是 String 项目ID,同region一一对应,参考获取项目ID。 endpoint 否 String 终端节点,具体请参考地区和终端节点。一般使用默认即可。 表2 SisConfig 参数名称
用户的ak,可参考AK/SK认证。 sk 是 String 用户的sk,可参考AK/SK认证。 region 是 String 区域,如cn-north-4,参考终端节点。 projectId 是 String 项目ID,同region一一对应,参考获取项目ID。 表2 RASRConfig 参数名称 是否必选
用户的ak,可参考AK/SK认证。 sk 是 String 用户的sk,可参考AK/SK认证。 region 是 String 区域,如cn-north-4,参考终端节点。 projectId 是 String 项目ID,同region一一对应,参考获取项目ID。 请求参数 请求类为SASRConfig和语音数据data,详见表2。
io-cn4,obs_object_key=abc/16k_pcm.wav add_punc 否 String 表示是否在识别结果中添加标点,取值为“yes”和“no”,默认为“no”。 digit_norm 否 String 表示是否将语音中的数字识别为阿拉伯数字,取值为“yes”
wgguVBgkqhkiG... “endpoint”即调用API的请求地址,不同服务不同区域的“endpoint”不同,具体请参见终端节点。 Python3语言请求代码示例 # -*- coding: utf-8 -*- # 此demo仅供测试使用,强烈建议使用sdk。需提前安装websocket-client
withEndpoint(endpoint) .build(); endpoint是华为云各服务应用区域和各服务的终端节点,详情请查看 地区和终端节点。 请求参数 请求类为RecognizeShortAudioRequest,该类的body参数为PostShortAudioReq。
识别结果响应 服务端在收到客户端发送的连续音频数据后, 当服务端识别出结果后会实时向客户端按句推送识别结果响应消息, 以json字符串形式放置在text message中。 响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为RESULT,表示识别结果响应。
use_aksk 是 Boolean 使用ak、sk要填写true。 region 是 String 区域,如:cn-north-4。具体请参考终端节点。 project_id 是 String 项目ID,同region一一对应,参考获取项目ID。 callback 是 Object 回调类
有哪些途径可以使用语音交互的API 共有三种方式可以基于已构建好的请求消息发起请求。 cURL cURL是一个命令行工具,用来执行各种URL操作和信息传输。cURL充当的是HTTP客户端,可以发送HTTP请求给服务端,并接收响应消息。cURL适用于接口调试。关于cURL详细信息请参见https://curl
use_aksk 是 Boolean 使用ak、sk要填写true。 region 是 String 区域,如:cn-north-4。具体请参考终端节点。 project_id 是 String 项目ID,同region一一对应,参考获取项目ID。 callback 是 Object 回调类
新增访问密钥”获取。访问密钥为credentials.csv文件,包含AK/SK信息。 region 部署区域,如:cn-north-4。具体请参考终端节点。 project_id 项目ID,同region一一对应,登录API凭证界面获取。 text 待合成的文本。 path 合成后音频保存路径。
“语种_采样率_领域”的形式,例如chinese_8k_common。请参见表 property取值范围。 add_punc 否 String 表示是否在识别结果中添加标点,取值为yes 、 no,默认no。 digit_norm 否 String 表示是否将语音中的数字识别为阿拉伯数字,取值为yes 、 no,默认为yes。
将带标签的文本作为text的参数值,上传至语音服务进行调用,以Java SDK为例: 使用postman调用格式如下: 标签 <speak> 描述:SSML文本的根节点 语法: <speak>这里输入SSML标签的文本</speak> 属性:无 标签关系: <speak> 可以包含文本和以下标签: <break>
时间戳数据 功能介绍 实时语音合成服务在生成音频流的同时,可以生成每个汉字/英文单词的时间戳信息。该信息可用于视频字幕和驱动数字人口型。 参数设置 设置请求参数subtitle为"word_level"或"phoneme_level"时,开启时间戳功能。 响应信息 表1 响应参数
语音合成结束响应 功能介绍 当合成引擎处理完合成请求后,会发送合成结束响应。客户端收到该响应后关闭当前Websocket链接即可。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为END,表示语音合成结束。 trace_id String
如何调用WebSocket API 前提条件 在调用实时语音识别的Websocket接口之前,您需要完成Token认证,详细操作指导请参见认证鉴权。 接口使用介绍 实时语音识别接口使用Websocket协议承载,客户端与服务端交流流程如图1所示。 分为三个主要步骤: WebSocket握手。
region 是 String 区域,如cn-north-4,参考终端节点。 project_id 是 String 项目ID,同region一一对应,参考获取项目ID。 service_endpoint 否 String 终端节点,一般使用默认即可。 sis_config 否 Object
数据保护技术 在使用语音交互服务过程中委托我们处理的语音音频和文本等数据,您完全拥有上述数据所有权及控制权,您应自行对上述数据来源和获取的合法性负责,华为云受托处理您的数据,以实现本服务功能或目的: (1)将语音音频数据识别转换成文本。 (2)将文本数据合成语音。 您的上述数据将