检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
实时语音识别工作流程 实时语音识别分为开始识别、发送音频数据、结束识别,断开连接四个阶段。 开始阶段需要发送开始指令,包含采样率,音频格式,是否返回中间结果等配置信息。服务端会返回一个开始响应。
华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。
实时语音识别响应 开始识别请求响应 事件响应 识别结果响应 错误响应 严重错误响应 结束识别请求响应 父主题: 实时语音识别接口
录音文件识别接口 提交录音文件识别任务 获取录音文件识别结果
true:表示取消识别,也即丢弃识别中和未识别的语音数据并结束,不返回剩余的识别结果。 false:表示继续处理识别中和未识别的语音数据直到处理完所有之前发送的数据。 默认是false。
请确保音频位宽为16bit,目前仅支持16bit位宽的音频,如果低于该位宽的音频,则无法正常识别。 父主题: API使用类
如果检测语音结尾的静音时长大于等于此值时,在实时语音识别单句模式下将返回VOICE_END(识别结果非空)或EXCEEDED_SILENCE(识别结果为空)事件并结束识别,在连续模式下将会断句并继续下一句的识别。
父主题: 实时语音识别响应
一句话识别 http接口 websocket接口
父主题: 实时语音识别响应
录音文件识别极速版接口 功能介绍 录音文件识别极速版接口,用于录音文件的同步识别。音频需要上传华为云OBS,提供华为云OBS对象地址,能快速返回识别结果。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。
property 是 String 属性字符串,language_sampleRate_domain, 如chinese_8k_common,参见《API参考》中开始识别章节。
父主题: 实时语音识别响应
实时语音识别接口 接口说明 Websocket握手请求 实时语音识别请求 实时语音识别响应
提交录音文件识别任务 录音文件识别接口,用于识别长录音文件,支持中文普通话、四川话识别。录音文件放在OBS(对象存储服务)或公网可访问的服务器上。 由于录音文件识别通常会需要较长的时间,因此识别是异步的,即接口分为创建识别任务和查询任务状态两个接口。
出现错误响应时,如果已经在一个会话中了,会再发送一个“结束识别”的响应,表示识别会话结束。如果会话还没有开始,那么发送此错误响应后不做其它操作。此后的音频数据都被忽略,直到收到下一个“开始识别”请求。
是否支持aac格式的语音文件转文字 一句话识别和录音文件识别以及实时语音识别均可实现语音转文字,一句话识别支持aac格式,录音文件识别和实时语音识别不支持aac格式。 父主题: 产品咨询类
status 否 String 当前识别状态。具体状态如下所示: WAITING 等待识别。 FINISHED 识别已经完成。 ERROR 识别过程中发生错误。 create_time 否 String 任务创建时间,遵循 RFC 3339格式。
实时语音识别连续模式 功能介绍 连续识别模式的语音总长度限制为五小时,适合于会议、演讲和直播等场景。 连续识别模式在流式识别的基础上,结合了语音的端点检测功能。
和连续识别不同的是,在单句模式下,返回第一段的识别结果后,将不再继续识别后续的音频。这主要是用于和用户进行语音交互的场景下,当用户说完一句话后,往往会等待后续的交互操作,例如聆听根据识别结果播报的相关内容,因而没有必要继续识别后续的音频。