检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
表6 WordsRegionList 参数 参数类型 描述 type String 文字识别区域类型。 text:文本识别区域; table:表格识别区域。 words_block_count Integer 子区域识别文字块数目。
车牌识别 功能介绍 识别输入图片中的车牌信息,并以JSON格式返回其坐标和内容。 该接口的使用限制请参见约束与限制,详细使用指导请参见OCR服务使用简介章节。 图1 车牌示例图 支持车牌信息、车牌颜色识别,支持双行车牌识别,支持单张图片内多个车牌识别。
语音合成 支持“华北-北京四”、“华东-上海一”区域。 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。
channel 否 String 语音文件声道信息,可以为MONO(缺省), LEFT_AGENT, RIGHT_AGENT。默认MONO。 emotion 否 Boolean 是否需要做情绪检测,默认true。
附录 名词解释 基本概念、云服务简介、专有名词解释 语音交互服务SIS:以API的形式,对外提供语音转文本以及文本转语音的服务。 函数工作流 FunctionGraph:FunctionGraph是一项基于事件驱动的函数托管计算服务。
解决方案架构如下: 图1 方案架构 该解决方案会部署如下资源: 语音交互服务SIS: 提供隐私通话录音文件转写的能力。 对象存储服务OBS:用于存放用户上传的隐私通话录音文件和工作流处理的语音识别结果和分析结果。
语音识别是强制绑定使用OBS进行录音文件存储吗 不是,只有录音文件识别需要使用OBS服务,语音交互服务对用户存储在OBS的数据,具有只读权限,没有修改和删除的权限。
流式一句话 功能介绍 流式一句话模式的语音长度限制为一分钟,适合于对话聊天等识别场景。 该接口支持用户将一整段语音分段,以流式输入,最后得到识别结果。实时语音识别引擎在获得分段的输入语音的同时,就可以同步地对这段数据进行特征提取和解码工作,而不用等到所有数据都获得后再开始工作。
实施步骤 准备工作 快速部署 开始使用 快速卸载
修订记录 发布日期 修订记录 2022-09-30 第一次正式发布。 2023-02-28 修订实施步骤。
实施步骤 准备工作 快速部署 开始使用 快速卸载
快速卸载 删除委托 在进行一键卸载之前,需要先删除该方案创建的委托。 登录华为云统一身份认证服务控制台,在“委托”菜单栏中找到以该方案OBS桶名称为前缀的委托,单击“删除”。 图1 删除委托 在弹出的删除确认框中单击“是”进行删除。 图2 确认删除 一键卸载 解决方案部署成功后,单击该方案堆栈后的
资源和成本规划 该解决方案主要部署如下资源,不同产品的花费仅供参考,实际以收费账单为准,具体请参考华为云官网价格: 表1 资源和成本规划 华为云服务 配置示例 每月花费 录音文件识别服务 区域:华北-北京四 计费模式:包年包月套餐包 计费价格:15元/10h 15元 对象存储服务
图2 上传语音文件 选择用于存放结果的“wwwy-2”桶(实际桶名称以部署指定参数为准),即可自动获取该语音文件的识别结果,以语音文件名称为前缀的JSON文件存储。 图3 获取识别结果文件 父主题: 实施步骤
购买、配置语音交互服务录音文件识别 登录语音交互服务,选择录音文件识别,单击购买录音识别套餐包。 图1 登录语音交互服务 图2 购买录音套餐 选择服务授权,开通对象服务授权。
空 登录华为云解决方案实践,选择“语音识别-隐私通话内容分析”模板,单击“一键部署”,跳转至解决方案创建堆栈界面。 图1 解决方案实施库 在选择模板界面中,单击“下一步”。 图2 选择模板 在配置参数界面中,参考表1完成自定义参数填写,单击“下一步”。
资源和成本规划 该解决方案主要部署如下资源,不同产品的花费仅供参考,具体请参考华为云官网价格,实际以收费账单为准: 表1 资源和成本规划(按需计费) 华云服务 配置示例 每月预估花费 语音交互服务 区域:华北-北京四 计费模式:按需计费 涉及服务:录音文件识别 录音文件识别:2.5
语音交互服务的监控指标 功能说明 本节定义了语音交互服务上报云监控服务的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控服务提供管理控制台来检索SIS服务产生的监控指标和告警信息。
801166010768953344" } 响应参数 { "result": { "serverId": "20140414172508-001-00101" }, "message": "success", "retcode": "0" } 父主题: 订阅语音识别结果接口
通用文字识别 功能介绍 识别图片上的文字信息,以JSON格式返回识别的文字和坐标。支持扫描文件、电子文档、书籍、票据和表单等多种场景的文字识别。 支持中英文以及部分繁体字。该接口的使用限制请参见约束与限制,详细使用指导请参见OCR服务使用简介章节。