检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
华为云语音交互服务 华为云语音交互服务 语音识别转文字、文本实时转语音 用户通过调用语音识别类接口,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本;同时也支持通过调用语音合成接口将文本转换成逼真的语音等。
父主题: 实时语音识别响应
父主题: 实时语音识别响应
父主题: 实时语音识别响应
订阅语音识别结果接口通用返回结果码 结果码 说明 0 调用配置接口成功 107-000 缓存登录信息失效,需要重新登录鉴权 107-001 调用配置接口抛了异常 107-002 输入参数不合法,必填字段为空 107-003 配置管理员密码错误,重试多次后锁定账号 107-004 无效配置管理员账号
l 其他扩展模块:支持离线语音识别,可与算法下的离线模块进行对比实验;支持手势识别传感器,可进行无感手势交互;支持NFC功能扩展,指纹识别等识别技术应用。l 其他附件:包含至少32GB的TF卡、扬声器、键盘鼠标等。边缘计算,人工智能,视觉识别语音识别,5G通信,竞赛设备
使用实时语音识别 前提条件 确保已按照配置CPP环境(Linux)配置完毕。 请参考SDK(websocket)获取最新版本SDK包。
maxSeconds 否 Integer 音频最长持续时间, [1, 60],默认30s。 intermediateResult 否 String 是否显示中间结果,yes 或 no,默认no。例如分3次发送音频,选择no结果一次性返回,选择yes分三次返回。
展开内容 收起内容 方案优势 高准确率 采用华为云语音交互服务 SIS的ASR能力,将录音文件转写成识别文本,在通用测试数据集上正确率可达90%以上。 开箱即用 通过配置算子触发规则和内容分析规则,用户只需要上传语音文件即可完成客服中心语音质检。
对象存储服务OBS:用于存放用户上传的客服中心录音文件和工作流处理的语音识别结果和分析结果。 函数工作流服务FunctionGraph:用于配置工作流的触发器和部署语音质检算子。
例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
附录 名词解释 基本概念、云服务简介、专有名词解释 语音交互服务SIS:以API的形式,对外提供语音转文本以及文本转语音的服务。 函数工作流 FunctionGraph:FunctionGraph是一项基于事件驱动的函数托管计算服务。使用FunctionGraph函数,只需编写业务函数代码并设置运行的条件
订阅语音识别结果接口 调用订阅语音识别结果接口前,需要进行如下操作。 联系系统管理员为租间开启智能座席特性,并以租户管理员登录AICC,开启“ > 呼叫中心配置 > 基本信息”中的智能识别特性。
表2 RASRConfig 参数名称 是否必选 参数类型 描述 audioFormat 是 String 音频格式,SDK内置录音功能只支持pcm16k16bit,参见《API参考》中开始识别章节。
附录 名词解释 基本概念、云服务简介、专有名词解释 语音交互服务 SIS: 以API的形式,对外提供语音转文本以及文本转语音的服务。 函数工作流 FunctionGraph:是协调多个任务调度执行的托管性服务,用以简化开发、协调业务流程的调度。
实施步骤 准备工作 快速部署 开始使用 快速卸载
实施步骤 准备工作 快速部署 开始使用 快速卸载
什么是语音识别 什么是语音识别? 语音识别,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
如何查看实时语音识别的中间结果 实时语音识别分为开始识别、发送音频数据、结束识别,断开连接四个阶段。在使用API或SDK时,可以通过将interim_results参数设置为yes,将识别过程的中间结果返回。如果设置为no,则会等每句话完毕才会返回识别结果。
资源和成本规划 该解决方案主要部署如下资源,不同产品的花费仅供参考,具体请参考华为云官网价格,实际以收费账单为准: 表1 资源和成本规划(按需计费) 华云服务 配置示例 每月预估花费 语音交互服务 区域:华北-北京四 计费模式:按需计费 涉及服务:录音文件识别 录音文件识别:2.5