检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户可以使用MetaStudio控制台首页的“分身视频制作”功能,制作数字人视频。 操作前准备 如果系统预置形象不满足要求,请参考形象制作,提前定制符合要求的分身数字人形象。 操作限制 MetaStudio控制台预置形象的有效使用期为3年,在2027年的年中前可放心使用。具体下线
用户Token。使用Token鉴权方式时必选。 通过调用IAM服务获取用户Token接口获取。 响应消息头中X-Subject-Token的值。 Authorization 否 String 使用AK/SK方式认证时必选,携带的鉴权信息。 X-Sdk-Date 否 String 使用AK/SK方式认证时必选,请求的发生时间。
限制说明 限制项 说明 开放范围 SP用户仅对大客户开放申请和使用。 功能范围 SP用户仅支持购买大颗粒度资源包,并分配资源给关联租户使用。 SP用户不支持访问MetaStudio控制台,进行控制台操作。 父主题: 使用限制
String 字幕文件下载链接。 subtitle_file_upload_url String 字幕文件上传链接。 subtitle_file_state String 字幕文件生成状态。 GENERATING:字幕文件生成中。 GENERATE_SUCCEED:字幕文件生成成功。
音频格式要求,如下所示: 支持的格式为:MP3、WAV。 大小不超过20MB,时长不超过5分钟。 文本驱动 文本驱动方式的要求如下所示: 文本输入长度不超过2000字。 通过文本合成的音频时长不能超过5分钟。 在照片数字人制作页面,选择“文本驱动”方式驱动照片说话时,需要输入文本并选择音色,再单
智能交互限制 智能交互对硬件设备的最低配置要求,如表1所示。 表1 硬件设备要求 硬件配置 最低配置 CPU i5及以上版本。 内存 8G以上。 硬盘 128G及以上。 操作系统 Windows或Android系统。 麦克风 需要有麦克风,且要保障1米以内的拾音效果。 扬声器 需要有扬声器。
String 字幕文件下载链接。 subtitle_file_upload_url String 字幕文件上传链接。 subtitle_file_state String 字幕文件生成状态。 GENERATING:字幕文件生成中。 GENERATE_SUCCEED:字幕文件生成成功。
OBS视频采集工具的基础分辨率和输出分辨率的值需要保持一致。 检查方法如下所示: 本地打开OBS视频采集工具。 在界面上方的导航栏中,选择“文件 > 设置”,弹出“设置”对话框。 在左侧导航栏中,选择“视频”,检查基础分辨率和输出分辨率的取值是否一致。 如果不一致,需要修改为相同的取值。 图1
能原因如下所示: 视频中使用的素材未上传成功,需重新上传后使用。 视频中的素材已被删除,多数情况下为PPT素材。需要在“我的创作 > 回收站”界面,找到素材并恢复。 视频中的素材可能涉及敏感内容,在“我的创作 > 资源 > 已冻结”界面,查看已冻结的资产。如需解冻,需要提交工单申请人工复审。
OBS视频采集工具的基础分辨率和输出分辨率的值需要保持一致。 检查方法如下所示: 本地打开OBS视频采集工具。 在界面上方的导航栏中,选择“文件 > 设置”,弹出“设置”对话框。 在左侧导航栏中,选择“视频”,检查基础分辨率和输出分辨率的取值是否一致。 如果不一致,需要修改为相同的取值。 图1
String 字幕文件下载链接。 subtitle_file_upload_url 否 String 字幕文件上传链接。 subtitle_file_state 否 String 字幕文件生成状态。 GENERATING:字幕文件生成中。 GENERATE_SUCCEED:字幕文件生成成功。
String 字幕文件下载链接。 subtitle_file_upload_url 否 String 字幕文件上传链接。 subtitle_file_state 否 String 字幕文件生成状态。 GENERATING:字幕文件生成中。 GENERATE_SUCCEED:字幕文件生成成功。
默认使用全局主播声音播报,如果单场景有单独设置声音,优先使用单场景的声音播报。单独标注助播的内容,会使用全局助播的声音进行播报。 也可以单击段落区域的试听图标,试听当前段落。 场景操作 支持对场景,执行下述操作: :修改场景名称,默认值为“场景1” :设置当前场景播报的声音,直播时会优先使用此声音播报当前场景内容。
MetaStudio支持SP模式,此模式对大客户开放,用于分销场景。SP用户支持购买大颗粒度资源包,并分配资源给关联租户使用。 使用限制 SP用户仅对大客户开放申请和使用。 SP用户不支持自己使用购买的资源包。 SP用户不支持访问MetaStudio控制台,进行控制台操作。 操作步骤 注册华为账号:单击进入注册页面。
分辨率:根据实际情况,选择视频的分辨率。 导出为:输入导出文件的名称。 画质增强:开启后将提升视频清晰度,合成时间相应变长。请根据实际情况确定是否开启。 单击“确定”,弹出“视频制作任务中心”对话框。 可查看视频合成任务的进度,直至合成成功。 单击“合成成功”状态右侧的图标,进入视频详情页面,如图4所示。
file_type String 文件类型(默认提取文件后缀)。 asset_file_category String 文件在资产中的分类。每种资产类型包含的文件分类不同。 MAIN:主文件 COVER:封面文件 PAGE:内容页图片 SAMPLE:样例音频 OTHER:其他文件 WHOLE_MODEL:全模型
String 字幕文件下载链接。 subtitle_file_upload_url 否 String 字幕文件上传链接。 subtitle_file_state 否 String 字幕文件生成状态。 GENERATING:字幕文件生成中。 GENERATE_SUCCEED:字幕文件生成成功。
每个单场景中所有段落输入文字的总量需大于200字。 每个段落的文本字符数量需小于2000,如果包含语音合成标记语言SSML标签,需小于3000。 整个直播间所有段落的文本总字符数,如果包含语音合成标记语言SSML标签时,需小于30万。 音频驱动 每个单场景上传音频的时长需大于1分钟,大小不超过100M。
需注意Flexus视频制作和标准版视频制作分开计费,从各自的套餐包中扣除费用。 Flexus视频制作:必须使用Flexus形象,声音使用不受限制。 按视频制作时长计费,计费项为“Flexus分身数字人视频制作”,详见计费说明。 系统声音和Flexus声音免费使用。第三方声音的计费方式,详见购买出门问问套餐包。
需整段录制所有语料生成一个长音频WAV或MP3格式文件,每句之间有2~3秒的停顿。WAV或MP3格式文件可直接上传MetaStudio控制台,无需压缩,无需提供语料txt文件。 推荐使用服务预置语料,也可自定义语料。系统会自动根据停顿做切割,自动识别文本内容。 音频文件命名无要求,可自定义,命名示例:Voice