检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
录音文件识别极速版接口 功能介绍 录音文件识别极速版接口,用于录音文件的同步识别。音频需要上传华为云OBS,提供华为云OBS对象地址,能快速返回识别结果。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
录音文件识别接口 提交录音文件识别任务 获取录音文件识别结果
String 录音文件识别任务标识符。 使用“callback_url”回调url时,该字段会随结果发送至用户服务器。 使用get接口查询,不会出现该字段。 status 否 String 当前识别状态。具体状态如下所示: WAITING 等待识别。 FINISHED 识别已经完成。 ERROR
提交录音文件识别任务 录音文件识别接口,用于识别长录音文件,支持中文普通话、四川话识别。录音文件放在OBS(对象存储服务)或公网可访问的服务器上。 由于录音文件识别通常会需要较长的时间,因此识别是异步的,即接口分为创建识别任务和查询任务状态两个接口。创建识别任务接口创建任务完成后
描述返回状态。 WAITING 等待识别。 FINISHED识别已经完成。 ERROR 识别过程中发生错误。 createTime 否 String 任务创建时间。格式如2018-12-04T13:10:29.310Z。 startTime 否 String 开始识别时间。格式如2018-12-04T13:10:29
表4 响应结果 参数名称 是否必选 参数类型 描述 status 否 String 当前识别状态。具体状态如下所示: WAITING 等待识别。 FINISHED 识别已经完成。 ERROR 识别过程中发生错误。 create_time 否 String 任务创建时间, 遵循 RFC
io_format取值范围”。 语音时长不超过5小时,文件大小不超过300M,用户的识别任务在6小时内完成并返回识别结果,识别结果保存72小时(从转写完成的时间算起)。 支持中文普通话、四川话识别。 父主题: 约束与限制
实时语音识别工作流程 实时语音识别分为开始识别、发送音频数据、结束识别,断开连接四个阶段。 开始阶段需要发送开始指令,包含采样率,音频格式,是否返回中间结果等配置信息。服务端会返回一个开始响应。 发送音频阶段客户端会分片发送音频数据,服务会返回识别结果或者其他事件,如音频超时,静音部分过长等。
一句话识别 支持“华北-北京四”、“华东-上海一”区域。 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。
支持采样率为16k的中文普通话语音识别,采用新一代端到端识别算法,识别准确率更高。 区域支持cn-east-3和cn-north-4(强烈推荐使用)。 english_16k_general 支持采样率为16k的英语语音识别,采用新一代端到端识别算法,识别准确率更高。区域仅支持cn-n
一句话识别 http接口 websocket接口
实时语音识别响应 开始识别请求响应 事件响应 识别结果响应 错误响应 严重错误响应 结束识别请求响应 父主题: 实时语音识别接口
音频格式,支持pcm等,如pcm8k16bit,参见《API参考》中开始识别章节。 property 是 String 属性字符串,language_sampleRate_domain, 如chinese_8k_common,参见《API参考》中开始识别章节。 通过set方法可以设置具体参数,详见表 RasrRequest设置参数
是 String 表示客户端结束识别请求,参数值设置为END。 cancel 否 Boolen 是否取消返回识别结果。 true:表示取消识别,也即丢弃识别中和未识别的语音数据并结束,不返回剩余的识别结果。 false:表示继续处理识别中和未识别的语音数据直到处理完所有之前发送的数据。
返回状态正常,但识别结果为空 一般由于格式不匹配造成的。请按照以下情况进行排查。 1. 请确保音频格式和请求格式参数保持一致,音频采样率和选择“property”参数中采样率保持一致。 2. 请确保音频位宽为16bit,目前仅支持16bit位宽的音频,如果低于该位宽的音频,则无法正常识别。
实时语音识别接口 接口说明 Websocket握手请求 实时语音识别请求 实时语音识别响应
识别结果响应 服务端在收到客户端发送的连续音频数据后, 当服务端识别出结果后会实时向客户端按句推送识别结果响应消息, 以json字符串形式放置在text message中。 响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为RESULT,表示识别结果响应。
结束识别请求响应 服务器端收到“结束识别”请求时或语音识别过程中发生错误,服务端会向客户端推送如下响应消息,以json字符串形式放置在text message中。 响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为END,表示结束识别响应。
在线调试 API Explorer在线调试工具提供API的检索、调试、代码示例生成功能。同时,集成开发环境CloudIDE,可完成代码的构建、调试、运行。 本章节以语音合成为例,介绍如何使用API Explorer调试API。 前提条件 注册华为账号并开通华为云,并完成实名认证,
开始识别请求响应 由于WebSocket是全双工的,因此响应就是从服务器端发送给客户端的消息,但也并不是所有的请求信息都有一条对应的响应。服务器端收到“开始识别”请求时,会给出如下响应消息,以json字符串形式放置在text message中。 响应消息 表1 响应参数 参数名 参数类型