检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
result 是 Result object 调用成功表示识别结果,调用失败时无此字段。 表3 Result 参数 是否必选 参数类型 描述 text 是 String 调用成功表示识别出的内容。 score 是 Float 调用成功表示识别出的置信度,取值范围:0~1。 word_info
时语音识别引擎握手连接,并发送语音数据和接收转写结果,最后关闭Websocket连接。 获取Websocket握手请求wss-URI请参见Websocket握手请求。 获取实时语音识别请求消息格式信息请参见实时语音识别请求。 获取实时语音识别响应消息格式请参见实时语音识别响应。
ponse response); 识别开始时回调。 void onResponseEnd(AsrResponse response); 识别结束时回调。 void onResponseError(AsrResponse response); 识别过程中出现异常,调用。 void
录音文件识别极速版 支持“华北-北京四”、“华东-上海一”区域。 当前语音服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域。 华东-上海一,推荐的区域。 支持wav、mp3、m4a、acc、opus格式音频文件。 语音时长不超过120分钟,文件大小不超过100M。
API参考》中开始识别章节。 property 是 String 属性字符串,language_sampleRate_domain, 如chinese_16k_general,参见《API参考》中开始识别章节。 addPunc 否 String 表示是否在识别结果中添加标点,取值为yes
如何调用WebSocket API 前提条件 在调用实时语音识别的Websocket接口之前,您需要完成Token认证,详细操作指导请参见认证鉴权。 接口使用介绍 实时语音识别接口使用Websocket协议承载,客户端与服务端交流流程如图1所示。 分为三个主要步骤: WebSocket握手。
Websocket握手请求 流式一句话 实时语音识别连续模式 实时语音识别单句模式 父主题: 实时语音识别接口
如何查看实时语音识别的中间结果 实时语音识别分为开始识别、发送音频数据、结束识别,断开连接四个阶段。在使用API或SDK时,可以通过将interim_results参数设置为yes,将识别过程的中间结果返回。如果设置为no,则会等每句话完毕才会返回识别结果。详细参数说明请见实时语音识别。
为什么会出现识别结果非常差的情况 问题现象 调用语音识别接口,识别结果同真实结果差别很大,或者服务端报音频格式错误。 解决方案 检查音频采样率是否符合。 对于裸音频,可采用toolsoft Audio player等工具进行试听,通过设置不同的采样率,播放正常的即为音频正常采样率。
创建热词表 在一句话识别、录音文件识别、实时语音识别服务中,如果在您的业务领域有一些特有的词,默认识别效果差的时候可以考虑使用热词管理功能,将这些词添加到词表,改善识别效果。 热词可以是姓名、公司名、某个领域的专有名词,如人名"王晓茗”(通常会识别为"王小明”)、运输域的“高栏”
音频格式,具体信息请参见《API参考》中一句话识别章节。 property 是 String 属性字符串,语言_采样率_模型,如chinese_16k_general。具体信息请参见《API参考》中一句话识别章节。 addPunc 否 String 表示是否在识别结果中添加标点,取值为yes 、
热词表ID,不使用则不填写。 创建热词表请参考《API参考》中创建热词表章节。 步骤3:调用一句话识别 执行AsrCustomizationDemo.java文件,“main”函数调用一句话识别(注意注释掉录音文件识别),可查看返回结果,显示如下。 { "trace_id": "7f0ba
为什么录音文件识别出现重复转写结果 问题现象 调用录音文件识别接口,识别的结果出现两条完全一致的结果。 解决方案 由于声道设置的原因,单声道的音频按照双声道处理了。 在请求中将参数“channel”的值修改成“MONO”或者直接去掉请求参数中的“channel”项。 父主题: API使用类
录音文件识别多久可以返回结果 音频转写时长受音频时长和排队任务数量影响,音频时长和理论返回时间可参见表 音频转写时长参考表。如果转写耗时比理论时延长,大概率表示当前时间段出现转写高峰,请耐心等待,我们承诺最大转写时长不超过6小时。 表1 音频转写时长参考表 音频时长 参考返回时间
音频格式,具体信息请参见《API参考》中一句话识别章节。 property 是 String 属性字符串,语言_采样率_模型,如chinese_16k_general。具体信息请参见《API参考》中一句话识别章节。 addPunc 否 String 表示是否在识别结果中添加标点,取值为yes 、
false表示为中间临时结果。 result 是 Object 调用成功表示识别结果,详见表6。 表6 Result 参数名称 是否必选 参数类型 描述 text 是 String 识别结果。 score 是 Float 识别结果的置信度(0-1之间)。此值仅会在最终结果时被赋值,在中间结果时统一置为“0
如何使用Websocket调用实时语音识别 解决方案 1. 下载Java SDK 或 Python SDK,参考《SDK参考》中获取SDK章节。 2. 配置SDK环境,参考《SDK参考》中配置Java环境。 3. 使用SDK里的demo进行调用。参考Java SDK和Python
流式一句话 功能介绍 流式一句话模式的语音长度限制为一分钟,适合于对话聊天等识别场景。 该接口支持用户将一整段语音分段,以流式输入,最后得到识别结果。实时语音识别引擎在获得分段的输入语音的同时,就可以同步地对这段数据进行特征提取和解码工作,而不用等到所有数据都获得后再开始工作。因
onExceededAudio(); 识别时长超过一分钟时,响应,后续录入音频不在识别。 void onResponseError(AsrResponse response); 识别过程中出现异常,调用。 void onResponseEnd(AsrResponse response); 识别结束时回调。
false表示为中间临时结果。 result Object 调用成功表示识别结果,调用失败时无此字段。 请参考表7。 表7 Result 参数名 参数类型 说明 text String 识别结果。 score Float 识别结果的置信度,取值范围:0~1。此值仅会在最终结果时被赋值,在中间结果时统一置为“0