检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
3D数字人费用:包括照片建模、语音驱动和视觉驱动的费用。 资产管理费用:即服务资产管理的费用。 MetaStudio的计费详情,请参考计费说明。 父主题: 产品咨询
图2 文本驱动 音频制作完成后,可单击音量图标,调整音频的音量。 上述操作全部完成后,第一个场景的视频内容已制作完成。 如果还需要制作更多场景,可单击“场景”区域的“+”图标,新增场景。制作过程参考第一个场景即可。
1.5秒超低时延交互 实时驱动极低延时,保障用户真实体验。
收音 收音说明 MetaStudio会使用视频中的语音,对应您口型的变化,来训练口型驱动效果,训练结果还会经过专家的技术审核。 所以在收音这方面,建议如下: 保证视频音画同步。 确保环境安静无噪声,模特人声清晰,无其他人声干扰,尽量减少视频底噪。
华为云MetaStudio分身数字人驱动算法 表1 分身数字人驱动算法 算法项 描述 算法名称 华为云MetaStudio分身数字人驱动算法 备案编号 网信算备520111252474601240045号 算法基本原理 分身数字人驱动算法是指通过深度学习生成数字人驱动模型,模型生成后
数字人的核心技术主要包括计算机视觉、计算机图形学、动作捕捉和驱动、图像渲染和人工智能等。 服务型数字人:利用深度神经网络进行图像合成、高度拟真的虚拟人。
文本驱动 文本驱动方式的要求如下所示: 文本输入长度不超过2000字。 通过文本合成的音频时长不能超过5分钟。 在照片数字人制作页面,选择“文本驱动”方式驱动照片说话时,需要输入文本并选择音色,再单击“试听”预估音频时长。如果超过5分钟,会导致照片数字人制作失败。
3D数字人 3D数字人风格管理 3D数字人风格化照片建模 3D数字人语音驱动 3D数字人视频驱动
表情驱动数据格式如何定义? 肢体驱动数据格式如何定义?
直播剧本包含下述设置: 剧本驱动 支持下述三种方式任选其一: 文本驱动:输入文本,通过文本驱动数字人说话。 音频驱动:上传音频,通过音频驱动数字人说话。 即兴直播:无需设置剧本,直接开播。开播后数字人是不说话的,需要发送互动内容,或者开启真人接管,驱动数字人说话。
图标 第一次单击可折叠“文本驱动/视频驱动”,第二次单击后恢复展示。 音频驱动 需从本地上传已录制好的音频。音频文件格式需要为WAV、MP3或M4A,大小不能超过100M。 可单击“导入”上传音频,也可以直接拖拽本地音频文件至提示区域中,完成上传。单击左侧的图标,可试听音频效果。
表1 视频制作限制 视频制作配置 限制 多场景配置 每个单场景,如果通过“文本驱动”方式生成语音时,所有段落汇总的文字数量需大于200字。 每个单场景,如果通过“音频驱动”方式生成语音时,每个音频时长需大于1分钟。
按需计费 按需预付费套餐包 语音驱动 按照输入文本或语音驱动数字人口型、表情等动作的时长进行计费。 计费时优先使用套餐包中的额度,该额度使用完后,转按需付费。 语音驱动的含义:根据输入文本或语音驱动数字人口型、表情等动作。
智能交互 智能交互管理 智能交互驱动 智能交互第三方LLM回调 智能交互客户端SDK
创建语音驱动任务 2次/秒 2次/秒 - 获取语音驱动任务列表 20次/秒 10次/秒 - 创建语音驱动表情动画任务 2次/秒 2次/秒 - 获取语音驱动表情数据 20次/秒 10次/秒 - 获取语音驱动数据 20次/秒 10次/秒 - 3D数字人视频驱动 创建视频驱动任务 2次
附录 状态码 错误码 获取项目ID 获取账号ID 直播控制HTTP Command命令说明 直播控制RTSA Command命令说明 文本驱动SSML定义 系统资产标签定义 服务支持的字体 资源类型 使用Java代码生成文件内容的MD5值
文本驱动:通过输入文本的方式生成音频。文本支持插入停顿、调整语速,如果是多音字可设置正确的发音,还可以选择不同的声音,试听生成的音频效果。支持开启字幕展示功能。 音频驱动:从本地上传音频文件,作为视频的语音。音频驱动方式,仅支持中文普通话的场景下能开启字幕。
创建语音驱动任务 2次/秒 2次/秒 - 获取语音驱动任务列表 20次/秒 10次/秒 - 创建语音驱动表情动画任务 2次/秒 2次/秒 - 获取语音驱动表情数据 20次/秒 10次/秒 - 获取语音驱动数据 20次/秒 10次/秒 - 3D数字人视频驱动 创建视频驱动任务 2次
视频直播画面创作完成后,请根据实际情况,选择下述一种直播剧本驱动方式。 “剧本驱动”包含3种方式: 文本驱动 需要通过文本驱动数字人说话。支持下述2种方式,增加文本内容。 直接在各个场景的段落框中输入文本内容。可单击图标,新增更多的段落。
表1 直播间限制 直播间配置 限制 多场景配置 每个单场景,如果通过“文本驱动”方式生成语音时,所有段落汇总的文字数量需大于200字。 每个单场景,如果通过“音频驱动”方式生成语音时,每个音频时长需大于1分钟。