数字内容生产线 METASTUDIO-视频直播:操作步骤

时间:2024-12-23 20:46:06

操作步骤

  1. 登录MetaStudio控制台
  1. 在“工作台”界面,单击“分身 视频直播 ”下方的“开始创建”。

    进入分身数字人直播首页面,如图1所示。

    图1 分身视频直播首页面

  2. 在“直播管理”页签,单击“创建直播间”,进入视频直播制作界面。

    界面详情如视频直播界面说明所示,对应操作说明如下所示。详细操作说明,请参考视频直播素材操作详情

    • 在左侧的素材区域,除了系统预置的视频素材外,角色还可以自定义定制数字人;背景、贴图、视频还支持从本地导入使用;商品可以自主创建;文本可自主输入文字内容。
    • 从素材区域添加到预览窗口中的贴图、视频和数字人支持进行图层管理,如:上移一层、下移一层、置顶、置底、应用到全局、删除等操作。还支持设置大小,拖动位置。

  3. 视频直播画面创作完成后,请根据实际情况,选择下述一种直播剧本驱动方式。

    “剧本驱动”包含3种方式:

    • 文本驱动

      需要通过文本驱动数字人说话。支持下述2种方式,增加文本内容。

      • 直接在各个场景的段落框中输入文本内容。可单击图标,新增更多的段落。
      • 单击右上方的“导入”,从本地导入不少于200字的txt文件。如果多个段落,可通过换行来实现,平台会自动解析输入内容。

      手工输入文本示例,如下所示:

      请注意,当前仅为效果演示,实际需要满足单场景不少于200字,单段落不多于2000字的要求。

      • 段落1.1:大家好,今天欢迎来到会议室,我们今天讨论的主题是:如何更好的学习和工作。
      • 段落1.2:我们每个人都有自己的学习和工作,难免会遇到一些问题。当我们遇到问题的时候,应该如何解决的呢?
        图2 文本驱动

      文本内容的操作说明如表1所示。

      表1 操作说明

      操作

      说明

      插入停顿

      在段落的某个位置,插入换气或者停顿时间,也支持自定义停顿时长。

      多音字

      选中文字,设置多音字的正确读音。

      全局语速

      设置全局语速,取值范围[0.5X,2X]。设置为0.5X时,声音放慢至0.5倍速播放;设置为2X时,声音加速至2倍速播放。

      助播

      选中一段文字,设置为助播来播报这段内容。

      全局声音(主播)

      主播全局声音,适用于直播间所有场景。如果单场景有单独设置声音,优先使用单场景的声音播报。

      有默认声音,用户也可以根据实际情况选择其他声音。

      如果需要使用标注“第三方”的系统声音,请参考购买出门问问声音套餐进行操作。

      全局声音(助播)

      助播全局声音,适用于直播间所有场景。单场景不支持单独设置助播声音。

      开播后的效果,如图3所示。如需进行互动,可单击图标,切换到助播声音。输入并发送互动内容,主播暂停播报,并使用助播声音插播发送成功的互动内容。

      导入

      支持从本地导入文本文件,解析生成段落内容。

      导入文件需满足:

      1. 支持txt格式,且字数不低于200字。
      2. 文本内容根据换行,自动解析为段落。

      试听

      单击“试听”,可以试听当前直播间剧本。

      默认使用全局主播声音播报,如果单场景有单独设置声音,优先使用单场景的声音播报。单独标注助播的内容,会使用全局助播的声音进行播报。

      也可以单击段落区域的试听图标,试听当前段落。

      场景操作

      支持对场景,执行下述操作:

      • :修改场景名称,默认值为“场景1”
      • :设置当前场景播报的声音,直播时会优先使用此声音播报当前场景内容。
      • :复制当前场景,新增一个相同场景。
      • :删除当前场景。
      • :调整场景的位置。
      • :为当前场景新增1个空白段落。

      段落操作

      支持对段落,执行下述操作:

      • :修改段落名称,默认值为“段落1.1”。
      • :试听当前段落的播报效果。
      • :复制当前段落,新增一个相同段落。
      • :删除段落。
      • :调整段落在场景中的位置。
      • :新增1个空白段落。
      图3 开播界面
    • 音频驱动
      1. 单击“上传音频”,从本地上传已录制好的音频,如图4所示。

        每个音频不能超过100M,支持WAV、M4A和MP3格式,每个场景的音频总时长不能低于1分钟。

        开播后会直接播放音频,声音是音频原有声音。用户也可以设置主播和助播的声音,用于开播后,使用主播或助播声音,播报发送的互动内容。

        图4 音频驱动
      2. 音频上传完成后,单击“试听”,可试听音频。
        开播后可单击如图5所示的图标,切换到全局主播或助播的声音,发送互动内容成功后,播报互动内容。
        图5 开播页面

    • 即兴直播

      无需设置剧本,直接开播,界面如图6所示。开播后数字人保持静默,需要发送互动内容或者通过真人接管,驱动数字人说话。

      图6 即兴直播

  4. 如果还需要制作多场景,可以单击直播画面预览窗口右侧“场景1”小窗口下方的“+”图标,新增场景,并参考前一个场景,设置生成下一个场景的画面布局和剧本内容。

    图7 直播间界面

  5. 所有场景的画面布局和剧本设置完成后,单击界面右侧的“互动设置”页签,如图8所示。

    互动设置包含4类设置:弹幕、用户入场、点赞和送礼。支持直接导入互动管理中设置好的互动库,也支持在当前直播间逐条设置互动规则。所有类型总计可添加100个互动规则。

    这4类互动设置新增互动规则的操作基本相同,下面以弹幕为例,进行操作说明。

    图8 互动设置
    1. 单击图8中的“添加规则”,展示如图9所示的界面。

      界面下方新增1个规则设置。

      先设置用户弹幕触发规则的关键词,如果有多个,请以“|”分隔,示例“链接|型号|优惠”。即服务扫描弹幕的时候,如果扫描到此关键词,自动回复当前规则内容。

      在下方选择主播或助播回复用户问题,回复内容支持通过下述2种方式设置。
      • 文本:通过文本方式设置回复内容,最多可增加5条回复。直播间开播后按照触发次数,从前往后依次命中答复,每次仅回复一条文本内容。

        示例:关于产品的链接、型号和优惠等问题,请看界面上方的说明,按照说明操作,就可以详细了解了。

      • 音频:从本地上传一个音频文件,支持MP4、WAV和M4A格式。当命中此规则后,使用此音频进行回复。
      • 智能交互:通过智能交互的方式回复用户问题,相当于提供了一个第三方语言模型去答复用户问题。

      回复问题的时候,支持同时在直播画面中展示图片或者视频信息,以加强回复效果。图片和视频的添加和设置方式完全相同,下面以图片为例,进行操作说明。

      1. 单击下方的“+”区域框,从本地选择图片或视频,添加到“+”区域框中。

        添加成功后,区域框展示图片缩略图,如所示。

      2. 将鼠标放在区域框中,区域框变化为形式。
      3. 单击“预览”,图片被添加到直播画面预览窗口中,可根据实际情况拖动图片的展示位置或者调整图片大小。
        图9 弹幕设置
    2. 单击“新增”,可参考6.a,添加更多的弹幕回复规则。
    3. 等所有弹幕规则增加完成后,支持单击“新增兜底”,新增新增一条兜底规则,设置方式与6.a相同。

      其含义为:用户问题如果未匹配到已有规则,可触发兜底回复,仅支持设置1条兜底回复。

    4. 支持对已有规则,执行下述操作:
      • 批量管理:支持批量设置所选规则使用的场景,或批量删除所选规则。
      • 弹幕回显:开启“弹幕回显”后,在直播画面中可以看到一条文本信息:正在回复[用户名称]:[弹幕内容]。
      • 全部启用:可以直接“全部启用”所有规则。
      • :设置单规则使用的场景。
      • :启用或关闭当前规则。
      • :删除规则。

  6. 单击界面右侧的“直播配置”页签,如图10所示。

    直播配置说明,如表2所示。
    图10 我的视频
    表2 直播配置

    区域

    参数

    说明

    开播设置

    选择开播方式(二选一)

    请根据实际情况,选择一种开播方式,并按照界面提示进行操作。

    输出设置

    直播画面

    选择直播画面的清晰度。

    包含如下选项:

    • 流畅
    • 高清
    • 超清

    默认值:高清。

    播放次数

    设置直播循环播放的次数,或“无限循环”。

    默认播放1次。

    直播窗口

    直播窗口展示尺寸,不同方案均可调整为竖向。

    包含如下选项:

    • 竖屏
    • 全屏:推荐用全屏,捕获的画面更大,需在直播伴侣中旋转使用。

    默认为“竖屏”。

    更多设置

    事件回调地址

    可在直播中返回场景、段落事件的字段,适用于接口调用或客户二次开发使用的场景。

    直播间ID

    无需设置,当前直播间保存后自动展示。

  7. 上述操作完成后,需要单击界面右上角的图标,保存直播内容。
  8. 单击界面右下方的“准备开播”,准备开播。

    默认勾选“加载完自动直播”,单击“准备开播”加载完成后自动开播。

    如果希望延迟开播,先取消勾选“加载完自动直播”,再单击“准备开播”。当需要开播时,在相同位置单击“开始直播”即可启动直播。

    使用即兴直播方式开播,仅需单击“准备开播”即可启动直播。

  9. 文本驱动和音频驱动方式,还需确认风险提示。建议按照系统建议优化完成后,再启动直播。

    1. 弹出“风险提示”对话框,如图11所示。
      用户需要参照风险提示项,逐一核查并优化直播内容。
      图11 风险提示
    2. 用户可以等直播风险消除后再开播,也可以直接选择“承担风险开播”后,等待直播启动。

  10. 直播启动成功后,直播画面预览窗口中,会展示直播启动的进度。

    开播后的效果如图12所示。界面右下方的操作说明,如表3所示。

    图12 开播页面
    表3 界面说明

    界面元素

    说明

    00:01:20

    直播计时,当前已直播1分20秒。

    切换互动内容播报的声音。默认为主播声音,可切换为助播声音。

    单击快捷图标,选择预置的互动内容发送播报。

    请输入互动内容,回车发送内容

    手工输入互动内容,发送成功后,主播或助播进行互动内容插播。插播结束后,继续播报原有内容。

    真人接管

    单击“真人接管”,开启真人接管功能。数字人停止发声,仅保留动作,改由真人发声。

    真人发声结束后,单击“取消真人接管”,关闭真人接管功能,继续播报原有内容。

    暂停

    单击“暂停”,暂停播报。

    单击“继续”,可恢复播报。

    停止

    单击“停止”,关闭当前直播。

support.huaweicloud.com/usermanual-metastudio/metastudio_05_0072.html