检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
是 Object 连接时网络的配置类。 RasrResponseListener 是 Object webSocket回调过程中,业务逻辑的Listener。 RasrConnProcessListener 否 Object webSocket生命周期的Listener。 表2 AuthInfo
API参考》中开始识别章节。 property 是 String 属性字符串,language_sampleRate_domain, 如chinese_16k_general,参见《API参考》中开始识别章节。 addPunc 否 String 表示是否在识别结果中添加标点,取值为yes
录音文件识别极速版 支持“华北-北京四”、“华东-上海一”区域。 当前语音服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域。 华东-上海一,推荐的区域。 支持wav、mp3、m4a、acc、opus格式音频文件。 语音时长不超过120分钟,文件大小不超过100M。
为什么录音文件识别出现重复转写结果 问题现象 调用录音文件识别接口,识别的结果出现两条完全一致的结果。 解决方案 由于声道设置的原因,单声道的音频按照双声道处理了。 在请求中将参数“channel”的值修改成“MONO”或者直接去掉请求参数中的“channel”项。 父主题: API使用类
是否支持aac格式的语音文件转文字 一句话识别和录音文件识别以及实时语音识别均可实现语音转文字,一句话识别支持aac格式,录音文件识别和实时语音识别不支持aac格式。 父主题: 产品咨询类
Websocket握手请求 流式一句话 实时语音识别连续模式 实时语音识别单句模式 父主题: 实时语音识别接口
general。具体信息请参见《API参考》中一句话识别章节。 addPunc 否 String 表示是否在识别结果中添加标点,取值为yes 、 no,默认no。 digitNorm 否 String 表示是否将语音中的数字识别为阿拉伯数字,取值为yes 、 no,默认为yes。
如何查看实时语音识别的中间结果 实时语音识别分为开始识别、发送音频数据、结束识别,断开连接四个阶段。在使用API或SDK时,可以通过将interim_results参数设置为yes,将识别过程的中间结果返回。如果设置为no,则会等每句话完毕才会返回识别结果。详细参数说明请见实时语音识别。
一句话识别Websocket接口 前提条件 确保已按照配置Python环境配置完毕,Python SDK仅支持Python3。 确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。 该功能为1.70及以上版本SDK新增功能,使用前请检查并更新SDK版本。 请
通过实时访问和调用API获取语音交互结果。华为云SIS服务支持调用一句话识别、录音文件识别、实时语言识别、语音合成接口等。用户通过调用语音识别类接口,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过调用语音合成接口将文本转换成逼真的语音等。适用场景有
用户通过调用API接口,将语音文件识别成可编辑的文本,然后返回JSON格式的识别结果,用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。 首次使用SIS 如果您是首次使用SIS的用户,建议您学习并了解如下信息: 功能介绍 通过功能介绍章节的内容,了解SIS不同功能的具体介绍,主要包括实时语音识别(Real-time
general。具体信息请参见《API参考》中一句话识别章节。 addPunc 否 String 表示是否在识别结果中添加标点,取值为yes 、 no,默认no。 digitNorm 否 String 表示是否将语音中的数字识别为阿拉伯数字,取值为yes 、 no,默认为yes。
result 是 Result object 调用成功表示识别结果,调用失败时无此字段。 表3 Result 参数 是否必选 参数类型 描述 text 是 String 调用成功表示识别出的内容。 score 是 Float 调用成功表示识别出的置信度,取值范围:0~1。 word_info
一句话识别Websocket接口 前提条件 确保已按照配置Java环境配置完毕。 确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。 该功能为1.70及以上版本SDK新增功能,使用前请检查并更新SDK版本。 请参考SDK(websocket)获取最新版本SDK包。
onExceededAudio(); 识别时长超过一分钟时,响应,后续录入音频不在识别。 void onResponseError(AsrResponse response); 识别过程中出现异常,调用。 void onResponseEnd(AsrResponse response); 识别结束时回调。
录音文件识别多久可以返回结果 音频转写时长受音频时长和排队任务数量影响,音频时长和理论返回时间可参见表 音频转写时长参考表。如果转写耗时比理论时延长,大概率表示当前时间段出现转写高峰,请耐心等待,我们承诺最大转写时长不超过6小时。 表1 音频转写时长参考表 音频时长 参考返回时间
语音识别是强制绑定使用OBS进行录音文件存储吗 不是,只有录音文件识别需要使用OBS服务,语音交互服务对用户存储在OBS的数据,具有只读权限,没有修改和删除的权限。所以用户是否删除上传至OBS服务的数据,需要用户根据自己的obs桶的使用情况或者容量大小确认,并在OBS服务上执行。
如何使用Websocket调用实时语音识别 解决方案 1. 下载Java SDK 或 Python SDK,参考《SDK参考》中获取SDK章节。 2. 配置SDK环境,参考《SDK参考》中配置Java环境。 3. 使用SDK里的demo进行调用。参考Java SDK和Python
ad 的值设置大一些,详细请参见API参考的实时语音识别的请求参数。 方法二:处理音频文件,将识别文件初始的静默音频剪切掉。 父主题: API使用类
华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口 。 一句话识别,录音文件识别支持的终端节点: 表1 一句话识别、录音文件识别 区域名称 区域 终端节点(Endpoint) 协议类型 华北-北京四 cn-north-4 sis-ext