检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
LEFT_AGENT 登录华为云解决方案实践,选择“语音识别-客服中心语音质检”模板,单击“一键部署”,跳转至解决方案创建堆栈界面。 图1 解决方案实施库 在选择模板界面中,单击“下一步”。 图2 选择模板 在配置参数界面中,参考表1完成自定义参数填写,单击“下一步”。
结果示例 客服中心语音质检结果如下所示,支持语音识别结果、原始录音文件地址、录音时长、规则命中结果、命中位置等多个字段。
(2)语音识别(ASR) 使用如Google Speech-to-Text、Mozilla DeepSpeech或Kaldi等ASR工具将音频转换为文本。 这些工具通常预训练的模型来处理不同语言的音频输入。
如何查看实时语音识别的中间结果 实时语音识别分为开始识别、发送音频数据、结束识别,断开连接四个阶段。在使用API或SDK时,可以通过将interim_results参数设置为yes,将识别过程的中间结果返回。如果设置为no,则会等每句话完毕才会返回识别结果。
语音识别-隐私通话内容分析 语音识别-隐私通话内容分析 查看部署指南 方案咨询 该解决方案有何用途? 该解决方案基于华为云语音交互服务 SIS及函数工作流 FunctionGraph,构建一套隐私通话内容分析工作流。
例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
修订记录 发布日期 修订记录 2022-09-30 第一次正式发布。 2023-02-28 修订实施步骤。
实施步骤 准备工作 快速部署 开始使用 快速卸载
快速卸载 登录资源编排服务 RFS,进入“资源栈”,选择创建的资源栈名称,单击“删除”。 图1 一键卸载 在弹出的删除资源栈确认框中,输入“Delete”,单击“确定”,即可卸载解决方案。 图2 删除资源栈确认 父主题: 实施步骤
资源和成本规划 该解决方案主要部署如下资源,不同产品的花费仅供参考,具体请参考华为云官网价格,实际以收费账单为准: 表1 资源和成本规划(按需计费) 华云服务 配置示例 每月预估花费 语音交互服务 区域:华北-北京四 计费模式:按需计费 涉及服务:录音文件识别 录音文件识别:2.5
快速卸载 删除委托 在进行一键卸载之前,需要先删除该方案创建的委托。 登录华为云统一身份认证服务控制台,在“委托”菜单栏中找到以该方案OBS桶名称为前缀的委托,单击“删除”。 图1 删除委托 在弹出的删除确认框中单击“是”进行删除。 图2 确认删除 一键卸载 解决方案部署成功后,单击该方案堆栈后的
资源和成本规划 该解决方案主要部署如下资源,不同产品的花费仅供参考,实际以收费账单为准,具体请参考华为云官网价格: 表1 资源和成本规划 华为云服务 配置示例 每月花费 录音文件识别服务 区域:华北-北京四 计费模式:包年包月套餐包 计费价格:15元/10h 15元 对象存储服务
而音频信号的丰富变化性是由说话人的各种复杂特性或者说话风格与语速、环境噪声、信道干扰、方言差异等因素引起的。声学模型需要足够的鲁棒性来处理以上的情况。
准备工作 获取事件网格 EG云服务事件通道ID 进入华为云官网,打开控制台管理界面,打开事件网格,复制default通道ID。 图1 获取事件通道ID 语音交互服务开通授权 登录语音交互服务控制台,在控制台左上角选择区域为“北京四”,左侧菜单选择服务授权,打开对象存储服务授权。如之前已打开过授权
修订记录 发布日期 修订记录 2022-11-30 第一次正式发布。 2023-03-09 修订实施步骤。 2025-01-06 适配函数工作流EventGrid触发器。
如何使用Websocket调用实时语音识别 解决方案 1. 下载Java SDK 或 Python SDK,参考《SDK参考》中获取SDK章节。 2. 配置SDK环境,参考《SDK参考》中配置Java环境。 3. 使用SDK里的demo进行调用。
空 登录华为云解决方案实践,选择“语音识别-隐私通话内容分析”模板,单击“一键部署”,跳转至解决方案创建堆栈界面。 图1 解决方案实施库 在选择模板界面中,单击“下一步”。 图2 选择模板 在配置参数界面中,参考表1完成自定义参数填写,单击“下一步”。
801166010768953344" } 响应参数 { "result": { "serverId": "20140414172508-001-00101" }, "message": "success", "retcode": "0" } 父主题: 订阅语音识别结果接口
立即参与 功能特性 支持热词 针对专业词汇,支持上传至热词表,增加专业词汇的语音识别准确率 针对专业词汇,支持上传至热词表,增加专业词汇的语音识别准确率 多模型多音频格式 提供对话、银行、保险等多种领域模型,支持8种以上音频格式的转写,适配场景广泛 提供对话、银行、保险等多种领域模型
charset=UTF-8 Guid:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx.AgentGateway1 请求参数 无 响应参数 { "message": "success", "retcode": "0" } 父主题: 订阅语音识别结果接口