检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
初始化AsrCustomizationClient详见表 AsrCustomizationClient初始化参数。 表1 AsrCustomizationClient初始化参数 参数名称 是否必选 参数类型 描述 ak 是 String 用户的ak,可参考AK/SK认证。 sk 是 String
实时语音合成 前提条件 确保已按照配置Python环境配置完毕,Python SDK仅支持Python3。 初始化Client 初始化RttsClient详见表 RttsClient初始化参数。 表1 RttsClient初始化参数 参数名称 是否必选 参数类型 描述 ak 是 String
事件响应 服务器端检测到某些事件时,会给出如下响应消息,以json字符串形式放置在text message中。 响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为EVENT,表示开始识别响应。 trace_id String 服
实时语音识别连续模式 前提条件 确保已经按照配置好iOS开发环境。 初始化Client 初始化RASRClient,参数为AuthInfo和RASRConfig。 表1 AuthInfo 参数名称 是否必选 参数类型 描述 ak 是 String 用户的ak,可参考AK/SK认证。
message)的方式发送。 音频数据将分片发送,也即在获得一定量音频数据的同时就可以发送一个binary message,每个分片建议在50ms~1000ms之间,建议在需要实时反馈的情况下100ms,不需要实时反馈的情况下500ms。实时语音识别代码示例请参考SDK文档。 当前SIS服务对于8k音频的分片大小限制为[160
请求什么类型的操作。 GET:请求服务器返回指定资源。 PUT:请求服务器更新指定资源。 POST:请求服务器新增资源或执行特殊操作。 DELETE:请求服务器删除指定资源,如删除对象等。 HEAD:请求服务器资源头部。 PATCH:请求服务器更新资源的部分内容。当资源不存在的时
前提条件 确保已经按照配置好iOS开发环境。 已经保存好1分钟内音频文件,建议使用16k16bit进行录音并保存为wav格式。 初始化Client 初始化SASRClient,参数为AuthInfo,详见表1。 表1 AuthInfo 参数名称 是否必选 参数类型 描述 ak 是 String
当服务端识别出结果后会实时向客户端按句推送识别结果响应消息, 以json字符串形式放置在text message中。 响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为RESULT,表示识别结果响应。 trace_id String 服务内部的令牌,可用于在日志中追溯具体流程。
recognized”? 可能原因 实时语音识别的初始静默时间过长无法识别。 解决方案 方法一:将参数设置中静默时间的参数vad_head 的值设置大一些,详细请参见API参考的实时语音识别的请求参数。 方法二:处理音频文件,将识别文件初始的静默音频剪切掉。 父主题: API使用类
息。cURL适用于接口调试。关于cURL详细信息请参见https://curl.haxx.se/。 编码 通过编码调用接口,组装请求消息,并发送处理请求消息。 REST客户端 Mozilla、Google都为REST提供了图形化的浏览器插件,发送处理请求消息。下载postman请参见https://www
客户端的端点检测功能相结合,只将检测到的有效语音段上传到服务器进行识别。 wss-URI wss-URI格式 wss /v1/{project_id}/rasr/continue-stream 参数说明 表1 参数说明 参数名 是否必选 说明 project_id 是 项目编号。获取方法,请参见获取项目ID。
调用录音文件识别接口,识别的结果出现两条完全一致的结果。 解决方案 由于声道设置的原因,单声道的音频按照双声道处理了。 在请求中将参数“channel”的值修改成“MONO”或者直接去掉请求参数中的“channel”项。 父主题: API使用类
" 解决方案 确保设置的audio_format格式的值是合法,即设置的格式是表1中的格式。 确保待识别音频的格式和接口参数中设置的audio_format参数格式一致。 表1 录音文件识别支持的音频格式 audioformat取值 说明 auto 自动判断,系统会自动判断并支持
项目ID,同Region一一对应,参考获取项目ID。 Endpoint 可选 终端节点,可不填,使用默认即可。 表2 config配置参数 参数名称 是否必选 参数说明 SocketTimeout 可选 Socket超时,默认10000,单位ms。 ConnectionTimeout 可选
识别,断开连接四个阶段。在使用API或SDK时,可以通过将interim_results参数设置为yes,将识别过程的中间结果返回。如果设置为no,则会等每句话完毕才会返回识别结果。详细参数说明请见实时语音识别。 父主题: API使用类
用于视频字幕和驱动数字人口型。 参数设置 设置请求参数subtitle为"word_level"或"phoneme_level"时,开启时间戳功能。 响应信息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为RESULT。 trace_id
议,客户端发送开始识别请求,用于配置实时语音识别的配置信息。 请求消息 表1 参数说明 参数名 是否必选 参数类型 说明 command 是 String 表示客户端发送开始识别请求,参数值需设置为START。 config 是 Object 配置信息。结构信息请参见表 config数据结构。
语音合成后能否返回播放时长 不能,当前语音合成无此参数。若需要知道语音时长,可以将返回语音数据解码转换成音频格式,播放后查看。 父主题: 产品咨询类
wss-URI格式 wss /v1/{project_id}/rtts 参数说明 表1 参数说明 名称 是否必选 说明 project_id 是 项目编号。获取方法,请参见获取项目ID。 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。
返回状态正常,但识别结果为空 一般由于格式不匹配造成的。请按照以下情况进行排查。 1. 请确保音频格式和请求格式参数保持一致,音频采样率和选择“property”参数中采样率保持一致。 2. 请确保音频位宽为16bit,目前仅支持16bit位宽的音频,如果低于该位宽的音频,则无法正常识别。