检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
父主题: 语音合成管理
3D数字人语音驱动 创建语音驱动任务 获取语音驱动任务列表 创建语音驱动表情动画任务 获取语音驱动表情数据 获取语音驱动数据 父主题: 3D数字人
查询语音训练任务列表 功能介绍 查询语音训练任务列表 调用方法 请参见如何调用API。
父主题: 语音合成管理
父主题: 语音合成管理
父主题: 语音合成管理
父主题: 语音合成管理
文本驱动SSML定义 MetaStudio语音驱动采用语音合成标记语言(SSML,Speech Synthesis Markup Language)来控制数字人的行为,包括动作、情绪以及TTS语音合成的多音字、停顿等。 SSML基础定义可参考语音合成标记语言版本 1.0。
支持购买下述套餐: 语音合成体验套餐 语音合成小型套餐 语音合成中型套餐 语音合成大型套餐 上述套餐购买完成后,所有预置的第三方声音均可使用。每个第三方声音的费用均不同,详见语音合成界面下方的声音价格表。
获取在线录音确认结果
选择背景、声音、模特等内容,基于文本或语音智能驱动,实现视频制作、视频直播、智能交互等能力。
声音 提供下述种方式,生成名片预览语音片段。 播报内容生成后,单击右侧的“试听”,可以试听播报效果。 语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。 在线录音:在线录制音频。
确认在线录音结果 功能介绍 确认在线录音结果。 调用方法 请参见如何调用API。
√ √ initResourcePath 初始化语音唤醒资源,不使用语音唤醒能力则忽略该接口。 × √ interactionModeSwitch 切换交互模式(语音问答/文本问答)。 × √ interruptSpeaking 中断数字人讲话。
华为云MetaStudio数字人语音驱动算法 表5 语音驱动算法 算法项 描述 算法名称 华为云MetaStudio数字人语音驱动算法 备案编号 网信算备520111252474601240061号 算法基本原理 数字人语音驱动算法是指使用深度学习将语音转换成3D数字人表情和肢体驱动数据的一种技术
修订记录 表1 修订记录 修改时间 修改说明 2025-01-14 本次变更如下: 新增发布3.0.2版本SDK,相比3.0.1版本,变更点如下所示: 语音唤醒能力支持设备切换实时生效。
获取在线录音确认结果 功能介绍 获取在线录音确认结果。 调用方法 请参见如何调用API。
这里的“资产编号”即语音同步合成WebSocket接口需要使用的音色ID。 图1 声音详情界面 在控制台查询音色ID(方式二) 支持在MetaStudio控制台界面通过F12查询音色ID,操作如下所示: 登录MetaStudio控制台。
支持对名片进行如下操作: 单击,查看分身数字人的语音表达形态。 单击“下载”,将名片下载至本地查看。下载后的文件为mp4格式。 单击,在弹出的下拉框中,可查看名片详情、重命名或删除名片。 图1 分身数字人名片 父主题: 数字人名片制作
2024-12-05 第十三次正式发布 本次变更如下: 新增接口组:分身数字人字幕文件生成管理。 新增接口组:第三方直播平台管理。 2024-11-30 第十二次正式发布 本次变更如下: 语音合成管理接口组,新增接口:创建TTS异步任务、获取TTS异步任务。