华为云用户手册

  • 视频制作界面说明 用户启动制作视频时,可以先了解下视频制作界面详情。 视频制作界面如图1所示。各区域详细说明,如表1所示。 用户使用数字人形象创作的视频,都会自动保存在MetaStudio控制台首页“最近项目”区域的“视频项目”页签中。用户可以根据实际情况,进行二次创作。 图1 视频制作界面 表1 界面说明 序号 区 域名 称 说明 1 视频素材区域 设置视频的场景,包括如下内容。视频素材的操作详情,请参考视频制作素材操作详情。 模板:系统预置视频模板列表。支持基于系统预置模板,一键快速制作数字人视频。 注意:只有管理员可以自定义新增模板。 角色:自动展示系统预置的分身数字人列表,用户可以直接使用已有的数字人去创作生成视频。如果预置的数字人不满足用户需求,单击“定制数字人”,可以定制自己需要的数字人形象。 用户自定义的Flexus分身数字人,也会展示在这里。Flexus分身数字人左上角会有标识。 背景:背景图片列表,可本地导入图片。支持透明背景、纯色背景或导入图片。 PPT:PPT文件列表,需要用户从本地导入后使用。 贴图:各类贴图列表,可本地导入素材。支持在当前画面基础上,增加贴图,丰富视频画面。 视频:各类无声音视频列表,可本地导入视频文件。支持添加为背景视频。 音乐:各类音乐列表,可本地导入音频文件。支持添加为背景音乐。 文本:用于在画布中添加文本。 2 画面布局区域 视频画面制作区域,可以制作和预览视频画面。 3 音频制作区域 音频制作区域,可选择下述1种方式生成音频。 文本驱动:通过输入文本的方式生成音频。文本支持插入停顿、调整语速,如果是多音字可设置正确的发音,还可以选择不同的声音,试听生成的音频效果。支持开启字幕展示功能。 音频驱动:从本地上传音频文件,作为视频的语音。音频驱动方式,仅支持中文普通话的场景下能开启字幕。 还可以设置音频的音量,和调整画布的横竖屏展示。 4 视频场景区域 如果一个视频包含多场景,可以新增场景依次制作,顺序播放。 5 文件设置区域 从左往右依次为: 单击文件名称右侧的图标,可自定义视频草稿的名称。 单击图标,保存视频制作任务。 单击图标,弹出“视频制作任务中心”对话框,可以看到视频制作任务列表,并查看当前视频的合成进展。 单击“合成视频”,合成数字人视频。 父主题: 视频制作
  • 视频 视频界面详情,如图6所示。 图6 视频界面 视频界面说明,如表5所示。 表5 界面元素说明 界面元素 说明 本地导入 单击“本地导入”,从本地选择MOV、MP4、M4V、MKV、FLV、3GP、WMV、AVI或WEBM格式的视频文件上传。 也支持直接拖拽本地视频文件至视频列表区域,完成上传操作。 界面默认展示两列视频,单击图标后,缩小展示为1列视频。单击图标,可恢复为2列展示。 关键词搜索框,可输入视频名称进行精准搜索。 示例:营销视频。 筛选条件 支持通过素材来源的维度,筛选展示下方的视频。 视频列表 默认展示全量视频。 查看视频 将鼠标放在视频上方,视频右上角展示图标。单击图标,可查看视频。 插入视频 将鼠标放在视频上方,视频右上角展示图标。单击图标,添加至当前场景的视频画面中。 插入的视频播放的时候默认无声音,仅有画面。 在视频画面预览区域,如果存在多种视频素材,支持对视频进行图层管理,如:循环1次、循环播放、上移一层、下移一层、置顶、置底、复制、应用到全局、删除等。还支持设置大小,拖动位置。
  • 音乐 音乐界面详情,如图7所示。 图7 音乐界面 音乐界面说明,如表6所示。 表6 界面元素说明 界面元素 说明 本地导入 单击“本地导入”,从本地选择WAV或MP3格式的音乐文件上传。 也支持直接拖拽本地音乐文件至音乐列表区域,完成上传操作。 单击图标后,音乐界面缩小展示。单击图标,可恢复为默认展示。 音乐列表 默认展示全量音乐文件。 试听音乐 将鼠标放在音乐上方,音乐名称左侧展示图标。单击图标,可试听音乐。 插入音乐 将鼠标放在音乐上方,右上角展示图标。单击图标,添加至视频草稿的所有场景中,作为视频的背景音乐。 取消应用 如果音乐已添加为视频的背景音乐,可单击音乐右上角的“取消应用”,取消使用。
  • 文本 文本界面详情,如图8所示。 图8 文本界面 文本界面说明,如表7所示。 表7 界面元素说明 界面元素 说明 界面默认展示两列文本,单击图标后,缩小展示为1列文本。单击图标,可恢复为2列展示。 文本列表 系统支持的文本列表。字体分别为:鸿蒙常规、鸿蒙粗体、鸿蒙细体、鸿蒙中黑。 插入文本 将鼠标放在文本上方,文本右上角展示图标。单击图标,添加至当前场景的视频画面中。 在左侧的“文本设置”界面,设置文本内容和字体样式,如图9所示。 在视频画面预览区域,如果存在多种视频素材,支持对视频进行图层管理,如:上移一层、下移一层、置顶、置底、复制、应用到全局、删除等。还支持设置大小,拖动位置。 图9 文本设置
  • 贴图 贴图界面详情,如图5所示。 图5 贴图界面 贴图界面说明,如表4所示。 表4 界面元素说明 界面元素 说明 本地导入 单击“本地导入”,从本地选择PNG、JPG、JPEG和BMP格式的图片上传。 也支持直接拖拽本地图片至图片列表区域,完成上传操作。 界面默认展示两列图片,单击图标后,缩小展示为1列图片。单击图标,可恢复为2列展示。 关键词搜索框,可输入图片名称进行精准搜索。 示例:小贴士。 筛选条件 支持通过素材来源的维度,筛选展示下方的图片。 图片列表 默认展示全量图片。 查看贴图 将鼠标放在图片上方,图片右上角展示图标。单击图标,可查看大图。 插入贴图 将鼠标放在图片上方,图片右上角展示图标。单击图标,添加至当前场景的视频画面中。 在视频画面预览区域,如果存在多种视频素材,支持对贴图进行图层管理,如:上移一层、下移一层、置顶、置底、复制、应用到全局、删除等。还支持设置大小,拖动位置。
  • 背景 背景界面详情,如图2所示。 图2 背景界面 背景界面说明,如表2所示。 表2 界面元素说明 界面元素 说明 本地导入 单击“本地导入”,从本地选择PNG、JPG、JPEG和BMP格式的图片上传。 也支持直接拖拽本地图片至图片列表区域,完成上传操作。 界面默认展示两列图片,单击图标后,缩小展示为1列图片。单击图标,可恢复为2列展示。 关键词搜索框,可输入图片名称进行精准搜索。 示例:科技。 纯色背景 支持设置为透明背景(第一张图),此时不支持添加视频素材,且已添加的素材也会全部清除。 支持设置为纯色背景,可以选择已有的颜色,也可以自定义颜色。 筛选条件 支持通过背景、类型的维度,筛选展示下方的图片。 图片列表 默认展示全量图片。选中场景,单击图片,可以替换当前场景的背景。 将鼠标放在图片上方,图片右上角展示图标。单击图标,可以将当前图片作为背景替换至所有场景。
  • PPT PPT界面详情,如图3所示。 图3 PPT界面 PPT界面说明,如表3所示。 表3 界面元素说明 界面元素 说明 本地导入 单击“本地导入”,从本地选择PPTX、PPT和PDF格式的文件上传。 也支持直接拖拽本地文件至文件列表区域,完成上传操作。 操作限制,如下所示: PPT文件不支持超过50页。 如果PPT的字体不支持在MetaStudio控制台展示,可能会导致视频制作时展示的PPT页面排版与实际排版不一致,建议将PPT转存为PDF文件后再导入。 操作详情请参考PPT如何转为PDF文件?。 如果PPT中有动画、动效,是不支持在MetaStudio控制台展示的,建议将PPT导出为视频后再导入。 操作详情请参考如何在MetaStudio控制台呈现PPT的动画效果?。 界面默认展示两列文件,单击图标后,缩小展示为1列文件。单击图标,可恢复为2列展示。 关键词搜索框,可输入文件名称进行精准搜索。 示例:销售指导书。 文件列表 默认展示全量文件。 查看文件 将鼠标放在文件上方,文件右上角展示图标。单击图标,可以在弹出的界面中预览PPT的所有页面内容。 插入文件 将鼠标放在文件上方,文件右上角展示图标。单击图标,弹出如图4所示的页面,选择文件中的页面完成插入操作。 在视频画面预览区域,如果存在多种视频素材,支持对文件页面进行图层管理,如:上移一层、下移一层、置顶、置底、复制、应用到全局、删除等。还支持设置大小,拖动位置。 删除文件 直接单击文件右下角的图标,执行下述操作: 从下拉框中选择“删除”,删除当前文件。 从下拉框中选择“批量删除”,勾选所有需要删除的文件。单击界面右下角的“删除”,删除选中的所有文件。 文件上传成功后的操作如下所示: 在PPT页签的文件列表区域,单击上传成功的文件,弹出如图4所示的对话框。 图4 插入页面 勾选需要插入的页面或直接全选所有界面,单击“复制当前场景”或“新增场景”,添加至当前视频草稿中。 新增1个视频草稿,默认会有1个场景,用户可以自定义此场景,也可以保持不变。MetaStudio按文件页面依次生成对应的场景,即一个页面对应生成一个场景。 不同的操作的含义为: 复制当前场景:插入的文件页面直接复制第一个场景,粘贴生成新场景,即新场景中完全复用第一个场景的背景、数字人等内容,同时再包含文件的选中页面。 如果插入文件之前,已经有多个场景,需要选中希望复制的场景,去插入文件页面。 新增场景:插入的文件直接复制第一个场景的数字人和背景,其余视频素材效果不会被复制。同时包含文件的选中页面,生成对应的新场景。 如果插入文件之前,已经有多个场景,需要先选中希望的数字人及其背景的场景,再去插入文件页面。 等待所有页面插入完成后,参考视频制作对场景进行定制。
  • 角色 角色界面详情,如图1所示。 图1 角色界面 角色界面说明,如表1所示。 表1 界面元素说明 界面元素 说明 定制数字人 单击“定制数字人”,跳转至形象制作页面,界面详情和操作指导,详见创建分身数字人定制任务。 角色界面默认展示两列数字人,单击图标后,缩小展示为1列数字人。单击图标,可恢复为2列展示。 关键词搜索框,可输入数字人名称进行精准搜索。 示例:yun lan。 刷新图标。如果有关键词,按照关键词进行刷新展示;如果没有关键词,恢复为默认展示。 筛选条件 支持通过角色、性别、姿势、行业、区域、分辨率和动作的维度,筛选展示下方的数字人。 数字人列表 默认展示全量数字人。单击数字人形象,自动替换更新至视频草稿的所有场景中。 用户自定义的Flexus分身数字人,也会展示在这里。Flexus分身数字人左上角会有标识。 在视频画面预览区域,如果存在多种视频素材,支持对数字人进行图层管理,如:上移一层、下移一层、置顶、置底、应用到全局、删除等。还支持设置大小,拖动位置。
  • 操作步骤 登录MetaStudio控制台。 在“工作台”界面,单击“分身 视频直播 ”下方的“开始创建”。 进入分身数字人直播首页面,如图1所示。 图1 分身视频直播首页面 在“直播管理”页签,单击“创建直播间”,进入视频直播制作界面。 界面详情如视频直播界面说明所示,对应操作说明如下所示。详细操作说明,请参考视频直播素材操作详情。 在左侧的素材区域,除了系统预置的视频素材外,角色还可以自定义定制数字人;背景、贴图、视频还支持从本地导入使用;商品可以自主创建;文本可自主输入文字内容。 从素材区域添加到预览窗口中的贴图、视频和数字人支持进行图层管理,如:上移一层、下移一层、置顶、置底、应用到全局、删除等操作。还支持设置大小,拖动位置。 视频直播画面创作完成后,请根据实际情况,选择下述一种直播剧本驱动方式。 “剧本驱动”包含3种方式: 文本驱动 需要通过文本驱动数字人说话。支持下述2种方式,增加文本内容。 直接在各个场景的段落框中输入文本内容。可单击图标,新增更多的段落。 单击右上方的“导入”,从本地导入不少于200字的txt文件。如果多个段落,可通过换行来实现,平台会自动解析输入内容。 手工输入文本示例,如下所示: 请注意,当前仅为效果演示,实际需要满足单场景不少于200字,单段落不多于2000字的要求。 段落1.1:大家好,今天欢迎来到会议室,我们今天讨论的主题是:如何更好的学习和工作。 段落1.2:我们每个人都有自己的学习和工作,难免会遇到一些问题。当我们遇到问题的时候,应该如何解决的呢? 图2 文本驱动 文本内容的操作说明如表1所示。 表1 操作说明 操作 说明 插入停顿 在段落的某个位置,插入换气或者停顿时间,也支持自定义停顿时长。 多音字 选中文字,设置多音字的正确读音。 全局语速 设置全局语速,取值范围[0.5X,2X]。设置为0.5X时,声音放慢至0.5倍速播放;设置为2X时,声音加速至2倍速播放。 助播 选中一段文字,设置为助播来播报这段内容。 全局声音(主播) 主播全局声音,适用于直播间所有场景。如果单场景有单独设置声音,优先使用单场景的声音播报。 有默认声音,用户也可以根据实际情况选择其他声音。 如果需要使用标注“第三方”的系统声音,请参考购买出门问问声音套餐进行操作。 全局声音(助播) 助播全局声音,适用于直播间所有场景。单场景不支持单独设置助播声音。 开播后的效果,如图3所示。如需进行互动,可单击图标,切换到助播声音。输入并发送互动内容,主播暂停播报,并使用助播声音插播发送成功的互动内容。 导入 支持从本地导入文本文件,解析生成段落内容。 导入文件需满足: 支持txt格式,且字数不低于200字。 文本内容根据换行,自动解析为段落。 试听 单击“试听”,可以试听当前直播间剧本。 默认使用全局主播声音播报,如果单场景有单独设置声音,优先使用单场景的声音播报。单独标注助播的内容,会使用全局助播的声音进行播报。 也可以单击段落区域的试听图标,试听当前段落。 场景操作 支持对场景,执行下述操作: :修改场景名称,默认值为“场景1” :设置当前场景播报的声音,直播时会优先使用此声音播报当前场景内容。 :复制当前场景,新增一个相同场景。 :删除当前场景。 :调整场景的位置。 :为当前场景新增1个空白段落。 段落操作 支持对段落,执行下述操作: :修改段落名称,默认值为“段落1.1”。 :试听当前段落的播报效果。 :复制当前段落,新增一个相同段落。 :删除段落。 :调整段落在场景中的位置。 :新增1个空白段落。 图3 开播界面 音频驱动 单击“上传音频”,从本地上传已录制好的音频,如图4所示。 每个音频不能超过100M,支持WAV、M4A和MP3格式,每个场景的音频总时长不能低于1分钟。 开播后会直接播放音频,声音是音频原有声音。用户也可以设置主播和助播的声音,用于开播后,使用主播或助播声音,播报发送的互动内容。 图4 音频驱动 音频上传完成后,单击“试听”,可试听音频。 开播后可单击如图5所示的图标,切换到全局主播或助播的声音,发送互动内容成功后,播报互动内容。 图5 开播页面 即兴直播 无需设置剧本,直接开播,界面如图6所示。开播后数字人保持静默,需要发送互动内容或者通过真人接管,驱动数字人说话。 图6 即兴直播 如果还需要制作多场景,可以单击直播画面预览窗口右侧“场景1”小窗口下方的“+”图标,新增场景,并参考前一个场景,设置生成下一个场景的画面布局和剧本内容。 图7 直播间界面 所有场景的画面布局和剧本设置完成后,单击界面右侧的“互动设置”页签,如图8所示。 互动设置包含4类设置:弹幕、用户入场、点赞和送礼。支持直接导入互动管理中设置好的互动库,也支持在当前直播间逐条设置互动规则。所有类型总计可添加100个互动规则。 这4类互动设置新增互动规则的操作基本相同,下面以弹幕为例,进行操作说明。 图8 互动设置 单击图8中的“添加规则”,展示如图9所示的界面。 界面下方新增1个规则设置。 先设置用户弹幕触发规则的关键词,如果有多个,请以“|”分隔,示例“链接|型号|优惠”。即服务扫描弹幕的时候,如果扫描到此关键词,自动回复当前规则内容。 在下方选择主播或助播回复用户问题,回复内容支持通过下述2种方式设置。 文本:通过文本方式设置回复内容,最多可增加5条回复。直播间开播后按照触发次数,从前往后依次命中答复,每次仅回复一条文本内容。 示例:关于产品的链接、型号和优惠等问题,请看界面上方的说明,按照说明操作,就可以详细了解了。 音频:从本地上传一个音频文件,支持MP4、WAV和M4A格式。当命中此规则后,使用此音频进行回复。 智能交互:通过智能交互的方式回复用户问题,相当于提供了一个第三方语言模型去答复用户问题。 回复问题的时候,支持同时在直播画面中展示图片或者视频信息,以加强回复效果。图片和视频的添加和设置方式完全相同,下面以图片为例,进行操作说明。 单击下方的“+”区域框,从本地选择图片或视频,添加到“+”区域框中。 添加成功后,区域框展示图片缩略图,如所示。 将鼠标放在区域框中,区域框变化为形式。 单击“预览”,图片被添加到直播画面预览窗口中,可根据实际情况拖动图片的展示位置或者调整图片大小。 图9 弹幕设置 单击“新增”,可参考6.a,添加更多的弹幕回复规则。 等所有弹幕规则增加完成后,支持单击“新增兜底”,新增新增一条兜底规则,设置方式与6.a相同。 其含义为:用户问题如果未匹配到已有规则,可触发兜底回复,仅支持设置1条兜底回复。 支持对已有规则,执行下述操作: 批量管理:支持批量设置所选规则使用的场景,或批量删除所选规则。 弹幕回显:开启“弹幕回显”后,在直播画面中可以看到一条文本信息:正在回复[用户名称]:[弹幕内容]。 全部启用:可以直接“全部启用”所有规则。 :设置单规则使用的场景。 :启用或关闭当前规则。 :删除规则。 单击界面右侧的“直播配置”页签,如图10所示。 直播配置说明,如表2所示。 图10 我的视频 表2 直播配置 区域 参数 说明 开播设置 选择开播方式(二选一) 请根据实际情况,选择一种开播方式,并按照界面提示进行操作。 输出设置 直播画面 选择直播画面的清晰度。 包含如下选项: 流畅 高清 超清 默认值:高清。 播放次数 设置直播循环播放的次数,或“无限循环”。 默认播放1次。 直播窗口 直播窗口展示尺寸,不同方案均可调整为竖向。 包含如下选项: 竖屏 全屏:推荐用全屏,捕获的画面更大,需在直播伴侣中旋转使用。 默认为“竖屏”。 更多设置 事件回调地址 可在直播中返回场景、段落事件的字段,适用于接口调用或客户二次开发使用的场景。 直播间ID 无需设置,当前直播间保存后自动展示。 上述操作完成后,需要单击界面右上角的图标,保存直播内容。 单击界面右下方的“准备开播”,准备开播。 默认勾选“加载完自动直播”,单击“准备开播”加载完成后自动开播。 如果希望延迟开播,先取消勾选“加载完自动直播”,再单击“准备开播”。当需要开播时,在相同位置单击“开始直播”即可启动直播。 使用即兴直播方式开播,仅需单击“准备开播”即可启动直播。 文本驱动和音频驱动方式,还需确认风险提示。建议按照系统建议优化完成后,再启动直播。 弹出“风险提示”对话框,如图11所示。 用户需要参照风险提示项,逐一核查并优化直播内容。 图11 风险提示 用户可以等直播风险消除后再开播,也可以直接选择“承担风险开播”后,等待直播启动。 直播启动成功后,直播画面预览窗口中,会展示直播启动的进度。 开播后的效果如图12所示。界面右下方的操作说明,如表3所示。 图12 开播页面 表3 界面说明 界面元素 说明 00:01:20 直播计时,当前已直播1分20秒。 切换互动内容播报的声音。默认为主播声音,可切换为助播声音。 单击快捷图标,选择预置的互动内容发送播报。 请输入互动内容,回车发送内容 手工输入互动内容,发送成功后,主播或助播进行互动内容插播。插播结束后,继续播报原有内容。 真人接管 单击“真人接管”,开启真人接管功能。数字人停止发声,仅保留动作,改由真人发声。 真人发声结束后,单击“取消真人接管”,关闭真人接管功能,继续播报原有内容。 暂停 单击“暂停”,暂停播报。 单击“继续”,可恢复播报。 停止 单击“停止”,关闭当前直播。
  • 附录一:拍摄检查项 拍摄完成后,可逐行检查拍摄的视频是否满足标准。 表6 检查项 检查项 是否满足 模特未说话时嘴巴保持闭合 绿幕上没有明显阴影 演员脸部和头部未出现碎发或零散发丝 演员全程未挪动位置 演员眼睛未明显观看提词器 视频长度大于等于5分钟 演员未穿着绿色或带有绿色图案的衣服 演员未穿戴反光的金属耳饰、手链、手表 演员未穿带半透明、透光、反光材质的衣服 演员未佩戴眼镜、墨镜、帽子 演员做手势时未超出画面 演员已将麦克风隐藏,无法直接看到 视频中未包含含义明确的动作,比如竖大拇指、比数字等 演员动作幅度适当,未遮挡面部
  • 绿幕数字人拍摄要求 模特拍摄时的手部动作、面部表情以及各方面姿态,都会决定数字人最终呈现时的姿态和动作。因此,我们希望模特在拍摄时尽可能保持自然,按照平时说话和表达的习惯进行录制。 为了保证数字人训练的效果,请按照我们提供的流程进行录制,请根据实际需求评估录制流程: 不需要交互:15~20秒静默 + 4~5分钟自然表达 需要交互:15~20秒静默 + 无语义动作 + 4~5分钟自然表达,详见交互数字人拍摄要求。 需要动作编排:15~20秒静默 + 4~5分钟自然表达 + 单独拍摄动作编排片段(保持机位和人物位置不动,详细要求见附录二:动作编排定制采集指南) 详细录制说明,如下所示: 静默期:录制静默的初始人物状态,时长约15-20秒 模特正视镜头,面带微笑,嘴巴闭合,保持静默。手部可根据习惯自然放于初始位置,如下图所示。 保持合适的人物比例。 图8 静默期 自然表达期:录制自然说话时的嘴型、动作、状态、神情等,时长约4分30秒。 按照语料逐段演讲,保持自然语速和小幅度动作,头部可自然摆动。 图9 画面演示 停顿时保证完全合上嘴唇,手部恢复至初始位置(建议在拍摄前简单练习) 图10 错误示例 图11 正反示例
  • 视频提交 视频提交的详细说明,如表5所示。 表5 视频提交说明 视频要求项 说明 交付内容 拍摄完成后请提交一个视频素材。 推荐视频格式为MP4。 视频大小通常小于5G。 提交训练的视频需要保留录制时的原声。 若对素材进行后处理,导出时请确保帧率与原视频保持一致。 时长 视频时长通常为5~6分钟。请勿剪辑视频长度,确保讲述视频、静默、手势,一起导出至同一个视频中。 美颜 如需对视频进行美颜等处理,确认美颜效果后,检查素材,确保不存在变形、模糊、晃动等情况,可提交训练视频。 裁剪 在指定时长内,包含主播身体的所有部分都要入镜,并剪切掉人像周围其他不必要元素,如绿幕边缘、拍摄设备等。 命名 命名规范:公司名 + _ + 模特名称 + _ + 拍摄时间(YYYYMMDD)。 示例:华为云_云玲_20230925.mp4
  • 收音 MetaStudio会使用视频中的语音和您口型变化的对应关系来训练口型驱动效果,训练结果还会经过专家的技术审核。 因此在收音这方面,我们建议: 保证视频音画同步。 确保环境安静无噪声,模特人声清晰,无其他人声干扰,尽量减少视频的底噪。 建议使用小蜜蜂或者其他专业麦克风搭配相机进行拍摄,这将大幅减少视频的底噪和其他环境噪声。但是注意:请尽量隐藏麦克风不被拍摄到,否则会导致数字人的形象中也包含麦克风。
  • 模特形象 分身数字人不支持替换衣服,因此,您在录制时的着装会决定您的数字人穿着。 在拍摄前,我们建议参照如下条目,对您的形象进行检查。 着装要求 避免任何会和背景融为一体的衣服颜色。如绿幕背景下,不能穿绿色的衣服或者含有任何绿色图案的衣服。 避免半透明、透光、反光的材质,避免穿带人脸图案的衣服,避免过多褶皱。 避免穿着密集条纹、密集方格、密集斑点等衣服,可能会导致相机成像时有摩尔纹。 避免穿戴反光、绿色成分的手表、耳钉等佩饰。不能佩戴项链或者颈链。 图5 着装要求 面部要求 保持干净整洁的妆面造型,淡妆出镜,避免脸部过油导致反光。 不佩戴眼镜、墨镜或者帽子,需要露出额头与眉毛。 确保面部无零散发丝,保证无法通过头发空隙看到背景。 确保面部没有较长零散的胡须。 图6 错误示例 图7 正确示例
  • 收音常见问题 如果我拍摄过程中有人闯入或有突发的声音,如雷声、汽车喇叭声等,我是否要重新拍摄? 根据我们的经验,小于3秒的短暂声音闯入不会对最终训练效果有明显的影响。您只需保证类似的突发声音越少越好。 我可能没有专业麦克风或者小蜜蜂设备,能否直接使用相机内置麦克风录制? 大部分相机内置麦克风的录制效果也能满足我们对声音的要求。我们对声音的清晰度可以有适度的妥协,但请务必保证底噪不能太大,且不能有其他人声出现,尤其是被拍摄模特正在说话的时候。
  • 相机架设 建议选用与40mm-85mm焦距等效镜头,避免使用超广角。 在合适的高度,将相机竖置固定于三脚架上,确保水平。 相机与人物眼神平齐,对焦于模特面部区域,确保面部清晰不失焦。 若录制全身,请确保模特脚底有绿幕空隙。 图1 拍摄示例 建议使用相机竖拍。 模特处于相机拍摄画框中间,与画框保持边距,确保模特做手势时不会越出画面。 图2 拍摄示例(绿幕完全覆盖) 图3 拍摄示例(确保手势不出画面) 避免拍摄人物时,出现过曝或欠曝的画面。 模特建议距离绿幕背景1.5米以上,避免出现阴影。
  • 概览 如需使用华为云MetaStudio服务定制分身数字人形象,需要参考本章节,完成分身数字人形象的采集工作。 请注意,分身数字人形象的制作效果与拍摄录制的内容效果有较大关联,为了后续能够体验到更好的数字人应用效果,我们建议您详细阅读每一节内容,并严格按照每节内容描述的标准进行拍摄。 表1是数字人拍摄视频标准概览内容,详细说明请参考本章节后面的描述。 表1 数字人拍摄标准概览 拍摄准备项 拍摄准备子项 拍摄标准说明 拍摄规格 - 视频总时长为5分钟,分辨率和帧率为4K、25fps或以上,格式为MP4或MOV。 场地布置 背景 使用颜色均匀、无破损、无褶皱的绿幕背景。 灯光 使用均匀、稳定的光照,标准日光色色温。 保证拍摄者光线充足,面部无阴影。 录制过程中光线确保不发生显著变化。 机位 相机与人物眼神平齐,对焦模特面部区域,确保面部清晰不失焦。建议竖拍,效果更佳。 收音 保证环境安静无噪声、无回声,并避免其他人声的干扰。 模特 面部 避免面部过油导致反光。 确保面部无零散发丝。 尽量不佩戴眼镜,以免反光。 保证模特轮廓清晰,精神饱满。 着装 避免穿着与绿幕颜色相近的绿色服饰,避免衣服上带绿色图案。 不佩戴可能反光的金属耳饰、手链和手表。 姿态动作 面带微笑。头部可自然摆动,动作自然,避免幅度过大。做完动作后,手部返回至初始位置。未说话时,请保持嘴巴闭合状态。 录制台本 - 提前准备中文或英文台本,建议使用提词器,确保阅读流畅。阅读中出现错误,不影响最终效果,无需停止录制。条件允许情况下,建议使用您自己熟悉的台本。 视频提交 - 训练视频需保留原声,音画必须同步。 视频请勿剪辑,确保讲述视频、静默、手势,均导出至同一个视频中。
  • 拍摄规格 推荐的相机拍摄规格清单,如表2所示。 表2 相机拍摄规格 拍摄规格 标准 分辨率和帧率 4K、25fps及以上 光圈 小于F4,避免景深过浅出现明显虚化 ISO 100~800,避免ISO过高出现噪点 白平衡 3500~5500K,全程固定白平衡。 录制格式 H.264或H.265编码 码率 大于60M 颜色位深 10bit或8bit 快门速度 必须小于等于“1/(帧率 * 4)” 示例:帧率60,则快门速度小于等于1/240。
  • 操作步骤 登录MetaStudio控制台。 单击“声音制作”下方的“开始创建”,进入声音制作页面。 选择“第三方模型”页签的“出门问问声音制作”方式。 界面左侧是声音制作页面,右侧为声音制作流程,如图1所示。 图1 定制声音 配置声音制作参数。 界面操作详情,如表1所示。 表1 界面操作说明 区域 说明 声音制作方式 选择“出门问问声音制作”。音频时长为0.5~180分钟,建议5分钟。音频格式为WAV或MP3文件,支持19种语言的声音制作。 音频总时长,建议5分钟;单段不低于5秒 如果剩余次数为0,可单击“立即购买”,参考购买出门问问小语种克隆套餐的操作流程购买小语种克隆套餐包。 请完善声音信息 输入声音名称。 示例:欢快女声。 请制作声音 界面提供录音指导,需要按照指导录制1分钟的长音频WAV或MP3文件。WAV或MP3文件支持直接上传,无需压缩,无需携带文案txt文件。 如果未使用服务预置文案,声音标签仅作为标签,来区分声音使用场景。 请选择声音性别 声音的性别,用于匹配声音模型的精准度。 如下所示: 男生 女生 请选择原始输入语言 上传语料所使用的语言。 包含19种语言:中文、英文、粤语、德语、法语、土耳其语、菲律宾语、日语、意大利语、马来语、俄罗斯语、韩语、芬兰语、荷兰语、西班牙语、印尼语、阿拉伯语、葡萄牙语、泰语。 须知:当前参数配置仅作为标识,对训练结果没有任何影响。 请选择输出模型语言 选择输出的声音模型支持的语言。 支持如下语言: 多语种:输出的声音模型,支持合成的语言类型包括中文、英文、德语、法语、土耳其语、菲律宾语、日语、意大利语、马来语、俄罗斯语、韩语、芬兰语、西班牙语、印尼语、阿拉伯语、葡萄牙语、荷兰语。 粤语 选择声音标签 声音的标签。作用为选择声音时,快速筛选领域。 包含如下选项: 新闻 营销 针对上述标签,MetaStudio服务预置了相应的文案内容,如文案样例(基础版)、文案样例(进阶版)和文案样例(高品质)所示。如果使用预置文案,必须选对标签。 请输入试听文本 请输入试听文本,声音训练完成以后,您可以试听该文本的合成效果。 声音授权 单击“授权书模板”,下载授权书模板后打印。用户手写相关信息后,重新生成签署后的pdf文件,或者拍摄成jpg或png格式的图片后上传。 授权书内容,可参考授权书。 联系方式(可选) 请输入手机号。 单击“提交制作”。 弹出“资源消耗提示”对话框。提示用户目前声音制作服务剩余数量,本次将消耗1个资源。 如果用户确认无误,单击“确认提交”。 声音制作任务提交成功后,界面提示“制作任务提交成功”,如图2所示。 声音制作任务提交成功后,需要等待1天左右的时间审核。任务审核通过后,启动声音制作。声音模型制作耗时约5个工作日。 图2 制作任务提交成功 用户可以单击“查看制作任务列表”,查看声音制作任务审核进展。 当状态变更为“系统审核完成”,自动启动算法训练。如果系统存在多个算法训练任务,可能会存在排队和延迟的现象,请耐心等待。
  • 视频直播首页面 分身视频直播首页面,如图1所示。各个页签的说明,如下所示: 直播管理:使用数字人创建直播间。操作请参考视频直播。 互动管理:支持新增互动库,及其相应的互动规则。互动库可以直接在直播间中导入使用。操作请参考互动管理。 商品管理:支持新增商品。商品会自动展示在直播间的“商品”页签中,供直播间添加使用。操作请参考商品管理。 直播任务管理:用户创建的直播间列表。支持通过直播间任务进入直播间,修改直播间内容后,重新开播。操作请参考直播任务管理。 图1 首页面
  • 直播间界面 视频直播制作界面如图2所示。各区域详细说明,如表1所示。 图2 视频直播制作界面 表1 界面说明 区域 说明 ① 素材区域,包括如下内容。视频直播素材的操作详情,请参考视频直播素材操作详情。 模板:视频直播模板,“模板”页签仅管理员可见。 角色:数字人形象列表,可选择需要使用的数字人形象,支持自定义。 背景:背景图片列表,支持本地导入。可选择需要使用的背景图。 贴图:各类贴图列表,支持本地导入。支持在当前画面基础上,增加贴图,丰富视频画面。 视频:无声音视频素材列表,支持本地导入,支持MOV、MP4、M4V、MKV、FLV、3GP、WMV和AVI格式的视频文件。支持添加为背景视频。 商品:商品列表。需要自定义创建商品,一个商品可以同时包含贴图、视频、文本和音频内容。 文本:文本模板列表,可选择一个文本模板,在视频直播画面上添加文本。 ② 直播画面预览窗口,用于预览视频直播静态画面效果。 ③ 直播剧本由多个场景构成,每个场景由多个段落组成。 支持新增、复制场景,并为每个场景设置对应的数字人形象、背景、声音等内容。 支持新增、复制段落,或使用txt格式文本导入剧本,平台自动解析输入内容。 直播剧本包含下述设置: 剧本驱动 支持下述三种方式任选其一: 文本驱动:输入文本,通过文本驱动数字人说话。 音频驱动:上传音频,通过音频驱动数字人说话。 即兴直播:无需设置剧本,直接开播。开播后数字人是不说话的,需要发送互动内容,或者开启真人接管,驱动数字人说话。 互动设置:支持弹幕、用户入场 、点赞和送礼设置。 直播配置:支持开播设置、输出设置、风控设置和更多设置。 界面下方的“加载完自动直播”,默认勾选,单击“准备开播”加载完成后自动开播。 如果希望延迟开播,先取消勾选“加载完自动直播”,再单击“准备开播”。当需要开播时,在相同位置单击“开始直播”即可启动直播。 ④ 左侧为当前视频直播的名称,支持自定义设置。 中间区域,从左往右依次为直播间名称编辑图标、操作回退图标、操作恢复图标和屏幕布局图标,默认为“9:16”。 右侧依次为下述内容: :保存图标,图标右侧自动展示最近一次的保存时间。 :清空图标,单击可以一次性清空直播间所有内容。
  • 文本 文本界面详情,如图6所示。 图6 文本界面 文本界面说明,如表6所示。 表6 界面元素说明 界面元素 说明 界面默认展示两列文本,单击图标后,缩小展示为1列文本。单击图标,可恢复为2列展示。 文本列表 系统支持的文本列表。字体分别为:鸿蒙常规、鸿蒙粗体、鸿蒙细体、鸿蒙中黑。 插入文本 将鼠标放在文本上方,文本右上角展示图标。单击图标,添加至当前场景的视频直播画面中。 在左侧的“文本设置”界面,设置文本内容和字体样式,如图7所示。 在视频直播画面预览区域,如果存在多种视频直播素材,支持对文本进行图层管理,如:上移一层、下移一层、置顶、置底、复制、应用到全局、删除等。还支持设置大小,拖动位置。 图7 文本设置
  • 商品 商品界面详情,如图5所示。 图5 商品界面 商品界面说明,如表5所示。 表5 界面元素说明 界面元素 说明 创建商品 单击“创建商品”,弹出“创建商品”对话框,参考商品管理配置商品信息。 也可直接参考商品管理,新增商品。 单击图标后,商品界面缩小展示。单击图标,可恢复为默认展示。 商品列表 默认展示全量商品。 插入素材 单击商品中的“插入素材”,下方展示当前商品已有的贴图、视频、文本、音频内容。 需要选中具体的素材,单击“+”图标,将选中素材添加至当前场景的直播画面中。 支持编辑商品,操作如下所示: 单击图标,选择一种素材类型,新增素材。 单击图标,删除不用的素材。 在视频直播画面预览区域,如果存在多种视频直播素材,支持对素材进行图层管理,如:上移一层、下移一层、置顶、置底、复制、应用到全局、删除等。还支持设置大小,拖动位置。
  • 视频 视频界面详情,如图4所示。 图4 视频界面 视频界面说明,如表4所示。 表4 界面元素说明 界面元素 说明 本地导入 单击“本地导入”,从本地选择MOV、MP4、M4V、MKV、FLV、3GP、WMV或AVI格式的视频文件上传。 也支持直接拖拽本地视频文件至视频列表区域,完成上传操作。 界面默认展示两列视频,单击图标后,缩小展示为1列视频。单击图标,可恢复为2列展示。 关键词搜索框,可输入视频名称进行精准搜索。 示例:营销视频。 筛选条件 支持通过视频来源的维度,筛选展示下方的视频。 视频列表 默认展示全量视频。 查看视频 将鼠标放在视频上方,视频右上角展示图标。单击图标,可查看视频。 插入视频 将鼠标放在视频上方,视频右上角展示图标。单击图标,添加至当前场景的视频直播画面中。 插入的视频播放的时候默认无声音,仅有画面。 在视频直播画面预览区域,如果存在多种视频素材,支持对视频进行图层管理,如:上移一层、下移一层、置顶、置底、复制、应用到全局、删除等。还支持设置大小,拖动位置。
  • 贴图 贴图界面详情,如图3所示。 图3 贴图界面 贴图界面说明,如表3所示。 表3 界面元素说明 界面元素 说明 本地导入 单击“本地导入”,从本地选择PNG、JPG、JPEG和BMP格式的图片上传。 也支持直接拖拽本地图片至图片列表区域,完成上传操作。 界面默认展示两列图片,单击图标后,缩小展示为1列图片。单击图标,可恢复为2列展示。 关键词搜索框,可输入图片名称进行精准搜索。 示例:小贴士。 筛选条件 支持通过贴图来源的维度,筛选展示下方的图片。 图片列表 默认展示全量图片。 查看贴图 将鼠标放在图片上方,图片右上角展示图标。单击图标,可查看大图。 插入贴图 将鼠标放在图片上方,图片右上角展示图标。单击图标,添加至当前场景的视频直播画面中。 在视频直播画面预览区域,如果存在多种视频素材,支持对贴图进行图层管理,如:上移一层、下移一层、置顶、置底、复制、应用到全局、删除等。还支持设置大小,拖动位置。
  • 背景 背景界面详情,如图2所示。 图2 背景界面 背景界面说明,如表2所示。 表2 界面元素说明 界面元素 说明 本地导入 单击“本地导入”,从本地选择PNG、JPG和JPEG格式的图片上传。暂不支持4K以上的图片。 也支持直接拖拽本地图片至图片列表区域,完成上传操作。 界面默认展示两列图片,单击图标后,缩小展示为1列图片。单击图标,可恢复为2列展示。 关键词搜索框,可输入图片名称进行精准搜索。 示例:科技。 筛选条件 支持通过背景、风格和布局的维度,筛选展示下方的图片。 图片列表 默认展示全量图片。选中场景,单击图片,可以替换当前场景的背景。 将鼠标放在图片上方,图片右上角展示图标。单击图标,可以将当前图片作为背景替换至所有场景。
  • 角色 角色界面详情,如图1所示。 图1 角色界面 角色界面说明,如表1所示。 表1 界面元素说明 界面元素 说明 定制数字人 单击“定制数字人”,跳转至形象制作页面,界面详情和操作指导,详见创建分身数字人定制任务。 角色界面默认展示两列数字人,单击图标后,缩小展示为1列数字人。单击图标,可恢复为2列展示。 关键词搜索框,可输入数字人名称进行精准搜索。 示例:yun lan。 刷新图标。如果有关键词,按照关键词进行刷新展示;如果没有关键词,恢复为默认展示。 筛选条件 支持通过角色、性别、姿势、行业、区域和分辨率的维度,筛选展示下方的数字人。 数字人列表 默认展示全量数字人。单击数字人形象,自动替换更新至视频直播的当前场景中。 在视频直播画面预览区域,如果存在多种素材,支持对数字人进行图层管理,如:上移一层、下移一层、置顶、置底、应用到全局、删除等。还支持设置大小,拖动位置。 将鼠标放在数字人上方,数字人右上角展示图标。单击图标,可以将数字人更新至当前视频直播的所有场景中。
  • REST API 客户可以查询自身的消费汇总账单的功能,消费按月汇总。 用于客户自身BSS系统的按需扣费或者客户消费记录的查看。 该接口只允许使用客户AK/SK或者Token调用。 当请求参数不传递“cloud_service_type_code”时,查询的账单是以云服务类型为维度的月度消费账单,即总条数“total_count”是以云服务类型进行统计 ,每条账单记录一种云服务类型的月度消费汇总。此时响应参数中返回的资源类型“resource_type_code”为“null”。 当请求参数传递“cloud_service_type_code”时,查询的账单是以资源类型为维度的月度消费账单,即总条数“total_count”是具体云服务类型下以资源类型进行统计,每条账单记录该云服务类型下的一种资源类型的月度消费汇总。此时响应参数中返回的资源类型“resource_type_code”返回具体的资源类型。
  • 请求消息 请求参数 无。 请求示例 GET https://bss.myhuaweicloud.com/v1.0/{domain_id}/common/order-mgr/resources/detail?resource_ids=b38*****62e,249*****c07&only_main_resource=1&page_no=1&page_size=100 HTTP/1.1 Content-Type: application/json X-Auth-Token:MIIPAgYJKoZIhvcNAQcCo...ggg1BBIINPXsidG9rZ
  • 状态码 状态码4xx:由于明显的客户端错误(例如,格式错误的请求语法、参数错误等),华为云会返回4xx错误码,请及时检查请求消息的正确性,重新发起请求。 状态码5xx:由于华为云系统原因,导致无法完成明显有效请求的处理,可及时联系华为云客服处理。 HTTP状态码 错误码 描述 200 CBC.0000 成功。 400 CBC.0100 参数错误。 403 CBC.0151 访问拒绝。 500 CBC.0999 其他错误。
共100000条