检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
实时语音识别请求 实时语音识别工作流程 开始识别 发送音频数据 结束识别 父主题: 实时语音识别接口
实时语音识别 前提条件 确保已按照配置Python环境配置完毕,Python SDK仅支持Python3。 确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。 请参考SDK(websocket)获取最新版本SDK包。 初始化Client 初始化RasrClient详见表
选择连接模式,目前实时语音识别提供三种接口,流式一句话、实时语音识别连续模式、实时语音识别单句模式 // 选择1 流式一句话连接 // rasrClient.shortStreamConnect(request); // 选择2,实时语音识别单句模式
果检测到一段语音的结束点,就会直接将当前这一段的识别结果返回,然后继续检测后面的语音数据。因此在连续识别模式中,可能多次返回识别结果。如果送入的一段语音较长,甚至有可能在一次返回中包括了多段的识别结果。 由于引入了静音检测,连续识别模式通常会比流式识别能具有更高的效率,因为对于静
String 调用失败时的错误码。 调用成功时无此字段。 error_msg String 调用失败时的错误信息。 调用成功时无此字段。 请求示例 “endpoint”即调用API的请求地址,不同服务不同区域的“endpoint”不同,具体请参见终端节点。 获取录音文件识别结果 GET h
要实时反馈的情况下100ms,不需要实时反馈的情况下500ms。 结束识别 功能介绍 对于识别中的对话,需要在Websocket上发送“结束识别”的请求来取消或结束识别。 "结束识别"请求使用文本类型的数据帧(text message)发送,命令和参数以json字符串的形式提供。
实时语音识别 支持“华北-北京四”、“华东-上海一”区域。 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。
eneral。具体信息请参见《API参考》中一句话识别章节。 add_punc 否 String 表示是否在识别结果中添加标点,取值为yes 、 no,默认no。 digit_norm 否 String 表示是否将语音中的数字识别为阿拉伯数字,取值为yes 、 no,默认为yes。
严重错误,通常指流程无法继续的情况。比如当出现客户端分片音频间隔超时(例如20s)。 出现严重错误响应时,流程不再继续,服务器端会主动断连。 响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为FATAL_ERROR,表示开始识别响应。 trace_id
实时语音识别多人同时使用,如何区分各自识别结果 每个用户独立建立websocket连接,不可共用一个websocket连接。 父主题: API使用类
用户通过调用API接口,将语音文件识别成可编辑的文本,然后返回JSON格式的识别结果,用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。 首次使用SIS 如果您是首次使用SIS的用户,建议您学习并了解如下信息: 功能介绍 通过功能介绍章节的内容,了解SIS不同功能的具体介绍,主要包括实时语音识别(Real-time
message); 返回识别的结果。 void onVoiceStart(); 单句模式下,响应VOICE_START事件,表示检测到语音,此时IVR可以做打断(连续模式可忽略)。 void onVoiceEnd(); 单句模式下,响应VOICE_END事件,表示一句话结束,后续的音频将被忽略,不会再进行识别(连续模式可忽略)。
应用场景 语音客服质检 识别客服、客户的语音,转换为文本。进一步通过文本检索,检查有没有违规、敏感词、电话号码等信息。 会议记录 对会议记录的音频文件,进行快速的识别,转化成文字,方便进行会议记录。 语音短消息 通过语音发送或者接收短消息时,将音频短消息转文字,提升阅读效率和交互体验。
Object 调用成功表示识别结果,调用失败时无此字段。详见表6。 表6 Result 参数名 是否必选 参数类型 说明 text 是 String 识别结果文本。 analysis_info 否 Object 每一句的质检分析结果对象。 仅在识别配置中的need_analysis
common。具体信息请参见《API参考》中录音文件识别章节。 addPunc 否 String 表示是否在识别结果中添加标点,取值为yes 、 no,默认no。 digitNorm 否 String 表示是否将语音中的数字识别为阿拉伯数字,取值为yes 、 no,默认为yes。
MR等多种格式,详见API参考文档中的“audio_format取值范围”。 语音时长不超过5小时,文件大小不超过300M,用户的识别任务在6小时内完成并返回识别结果,识别结果保存72小时(从转写完成的时间算起)。 支持中文普通话、四川话识别。 父主题: 约束与限制
chinese_16k_general 支持采样率为16k的中文普通话语音识别,采用新一代端到端识别算法,识别准确率更高。 区域支持cn-east-3和cn-north-4(强烈推荐使用)。 chinese_16k_travel 支持采样率为16k的中文普通话语音识别,采用新一代端到端识别算法,并针对网约车质检场景进行了优化。
调用API实现一句话识别 本章节提供了通过Postman调用一句话识别API的样例,详细介绍如何调用一句话识别API接口,帮助您快速熟悉语音交互服务的使用方法。调用SIS服务的具体操作如下: 步骤1:配置环境 步骤2:Token认证 步骤3:调用一句话识别 准备工作 注册华为帐号
方法名称 是否必选 参数类型 描述 SetPunc 否 String 表示是否在识别结果中添加标点,取值为yes 、 no,默认no。 SetDigitNorm 否 String 表示是否将语音中的数字识别为阿拉伯数字,取值为yes 、 no,默认为yes。 SetVadHead 否
针对专业词汇,支持上传至热词表,增加专业词汇的识别准确率。 可定制化 针对客户的特定场景需求,定制垂直领域的语音识别模型,识别效果更精确。 录音文件识别 对于录制的长语音进行识别,转写成文字,提供不同领域模型,具备良好的可扩展性,支持热词定制。 产品优势 高识别率 基于深度学习技术,对特定领域场景的语音识别进行优化,识别率达到业界领先。