检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
例如用户通过语音识别功能,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。 父主题: 产品咨询类
免费试用 服务咨询 云蝠智能AI在线体验 云蝠智能AI在线体验 免费AI客服电话-呼叫中心场景专属语音识别、语音合成服务 免费AI客服电话-云蝠智能AI客户联络中心真人语音效果,根据客户需求量身定制,打造真实互动体验。
AI说 为医生打造专属数字分身! AIGC:人工智能生成内容的崛起与未... ModelArts JupyterLab常见问题解决...
该API属于MetaStudio服务,描述: 删除语音训练任务接口URL: "/v1/{project_id}/voice-training-manage/user/jobs/{job_id}"
该API属于MetaStudio服务,描述: 提交训练任务,执行该接口后,任务会进入审核状态,审核完成后会等待训练。接口URL: "/v1/{project_id}/voice-training-manage/user/jobs/{job_id}"
可用区(AZ,Availability Zone):一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。
实施步骤 准备工作 快速部署 开始使用 快速卸载
语音通话价格说明 计费概述 语音通话服务按照业务使用量,即账号所有固话号码数量(月租)和通话时长进行计费,具体可参考计费详情和计费原则。 语音通话采用预付费模式,使用语音通话服务前,需先在华为云账户中充值,可参考如何给账户充值。
实时语音识别接口 接口说明 Websocket握手请求 实时语音识别请求 实时语音识别响应
最小值:1 pool_id String 训练作业选择的资源池ID。 flavor_detail flavor_detail object 训练作业、算法的规格信息。 表43 flavor_detail 参数 参数类型 描述 flavor_type String 资源规格的类型。
训练模型 特征和算法确定后,可以开始训练模型。 训练模型 单击“模型选择”左下方的“训练模型”。 新增“训练模型”内容,如图1所示。 图1 训练模型 单击“训练模型”代码框左侧的图标,进行模型训练。 模型训练完成后,界面下方展示模型的评估效果。
结果示例 客服中心语音质检结果如下所示,支持语音识别结果、原始录音文件地址、录音时长、规则命中结果、命中位置等多个字段。
使用实时语音识别 前提条件 确保已按照配置CPP环境(Windows)配置完毕。 请参考SDK(websocket)获取最新版本SDK包。 初始化Client 初始化RasrClient,其参数包括AuthInfo。
空 channel String 必填 语音文件声道信息,可设置为MONO,LEFT_AGENT, RIGHT_AGENT。如果channel 为MONO,那么原始文件需要为单声道文件。LEFT_AGENT 指定左声道语音为agent(坐席)。
修订记录 发布日期 修订记录 2022-11-30 第一次正式发布。 2023-03-09 修订实施步骤。 2024-09-18 适配函数工作流EventGrid触发器。
model_property 否 String 特征字符串,{language}_{speaker}_{domain},默认chinese_xiaoyan_common。具体信息请参见《API参考》中语音合成章节。
训练作业 创建训练作业 查询训练作业列表 查询训练作业版本详情 删除训练作业版本 查询训练作业版本列表 创建训练作业版本 停止训练作业版本 更新训练作业描述 删除训练作业 获取训练作业日志的文件名 查询预置算法 查询训练作业日志 父主题: 训练管理(旧版)
快速卸载 登录资源编排服务 RFS,进入“资源栈”,选择创建的资源栈名称,单击“删除”。 图1 一键卸载 在弹出的删除资源栈确认框中,输入“Delete”,单击“确定”,即可卸载解决方案。 图2 删除资源栈确认 父主题: 实施步骤
资源和成本规划 该解决方案主要部署如下资源,不同产品的花费仅供参考,具体请参考华为云官网价格,实际以收费账单为准: 表1 资源和成本规划(按需计费) 华云服务 配置示例 每月预估花费 语音交互服务 区域:华北-北京四 计费模式:按需计费 涉及服务:录音文件识别 录音文件识别:2.5
支持客户的个性化语音定制化需求。 语音合成服务提供在线语音合成能力,支持将文本信息实时转化为近似的真人发声,支持多语言多音色语音在线合成。支持客户的个性化语音定制化需求。