数字内容生产线 METASTUDIO-华为云

数字内容生产线 METASTUDIO-创建声音制作任务（华为模型）:操作步骤

操作步骤登录MetaStudio控制台。单击“声音制作”下方的“开始创建”，进入声音制作页面。界面左侧是声音制作页面，右侧为声音制作流程。声音制作录制教程，可以帮助用户快速制作声音。图1 定制声音在“华为模型”页签，配置声音制作参数。界面操作详情，如表1所示。表1 界面操作说明区域说明声音制作方式 MetaStudio提供下述声音制作方式：基础版声音制作：仅需20条语料。音频格式为WAV文件。音频时长为3~10分钟，建议5分钟。进阶版声音制作：仅需100条语料。音频格式为WAV文件。音频时长10~30分钟，建议15分钟。高品质声音制作：需要500条语料。音频格式为WAV文件。音频时长1小时以上，建议1小时。仅支持录制成长音频，每句之间需要有2~3秒的停顿。每种声音制作方式后面都会展示剩余次数，需要保证剩余次数充足。其中，进阶版和高品质声音制作需要更多语料，训练时长更长，声音效果更佳。请完善声音信息输入声音名称。示例：欢快女声。请选择声音性别声音的性别，如下所示：男生女生原始输入语言声音的原始输入语言，包含如下选项：中文英文选择声音标签声音的标签，包含如下选项：新闻营销针对上述标签，MetaStudio服务预置了相应的文案内容，如文案样例（基础版）、文案样例（进阶版）和文案样例（高品质）所示。如果按句录制方式（仅基础版和进阶版支持），且使用预置文案，必须选对标签。请制作声音制作声音的方式为：语料上传：界面提供录音指导，需要按照指导，基础版录制20句音频，进阶版录制100句音频，高品质声音制作需要录制500句以上的音频。音频仅支持wav格式。建议整段录制生成一个长音频文件，直接上传，无需压缩，无需携带文案txt文件。在线录音：需要用户在线录制，先单击“开始环境检测”。首次录制界面会弹出提示，需要允许使用您的麦克风。当界面显示“录制环境合格”时，单击下方的“开始录音”。界面会弹出提示，开始录音后，将不能更改前面设置的基础信息，单击“确定”。单击“开始录音”，启动录制。根据界面提示，录制20条或100条合格的语料音频即可。高品质声音制作，不支持在线录音方式。如果选择“语料上传”的方式，且未使用服务预置文案，声音标签仅作为标签，来区分声音使用场景；如果选择“在线录音”的方式，服务会根据声音标签，生成其对应格式的音频文件，界面不展示音频文件格式，用户可不关注。声音授权单击“授权书模板”，下载授权书模板后打印。用户手写相关信息后，重新生成签署后的pdf文件，或者拍摄成jpg或png格式的图片后上传。授权书内容，可参考授权书。单击“提交制作”。弹出“资源消耗提示”对话框。提示用户目前声音制作服务剩余数量，本次将消耗1个资源。如果用户确认无误，单击“确认提交”。声音制作任务提交成功后，界面提示“制作任务提交成功”，如图2所示。声音制作任务提交成功后，需要等待1天左右的时间审核。任务审核通过后，启动声音制作。声音模型制作耗时，如下所示：基础版：约1~3个工作日。进阶版：约1~3个工作日。高品质：约5个工作日。图2 制作任务提交成功用户可以单击“查看制作任务列表”，查看声音制作任务审核进展。当状态变更为“系统审核完成”，自动启动算法训练。如果系统存在多个算法训练任务，可能会存在排队和延迟的现象，请耐心等待。

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-声音制作:操作步骤

操作步骤登录MetaStudio控制台。单击“声音制作”下方的“开始创建”，进入声音制作页面。图1 定制声音配置声音制作参数。界面操作详情，如表1所示。表1 界面操作说明区域说明声音制作方式选择声音制作方式“基础版声音制作”。请完善声音信息输入声音名称，示例：欢快女声。请选择声音性别选择声音的性别，示例：女生。原始输入语言选择声音的原始输入语言，示例：中文。选择声音标签声音的标签。请根据所选文案样例，选择相应的标签，如下所示：营销：营销宣传风格文案新闻：新闻播报风格文案请制作声音使用“语料上传”的方式，直接上传一个已录制好的长音频WAV文件，无需压缩，无需携带文案txt文件。声音授权单击“授权书模板”，下载授权书模板后打印。用户手写相关信息后，重新生成签署后的pdf文件，或者拍摄成jpg或png格式的图片后上传。授权书内容，可参考授权书。单击“提交制作”。弹出“资源消耗提示”对话框。提示用户目前声音制作服务剩余数量，本次将消耗1个资源。如果用户确认无误，单击“确认提交”。声音制作任务提交成功后，界面提示“制作任务提交成功”，如图2所示。声音制作任务提交成功后，需要等待1天左右的时间审核。任务审核通过后，启动声音制作。图2 制作任务提交成功用户可以单击“查看制作任务列表”，查看声音制作任务审核进展。当状态变更为“系统审核完成”，自动启动算法训练。如果系统存在多个算法训练任务，可能会存在排队和延迟的现象，请耐心等待。确认声音制作任务已训练完成后，在左侧导航栏中，单击“我的创作”。选择“声音”，找到已生成的声音，将鼠标放在头像上面，展示试听图标，单击即可试听声音效果。图3 声音

数字内容生产线 METASTUDIO

数字内容生产线 METASTUDIO-真人声音录制:录制内容提交规范

录制内容提交规范表3 录音提交内容规范声音类型音频说明音频命名基础版支持整段录制或按句录制，详细说明如•（推荐）方式一：整段录制、•方式二：按句录制和•方式三：使用自定义语料按句录制所示。符合手机录制音频-表1中“音频命名”的要求。进阶版高品质仅支持整段录制，详细说明如•（推荐）方式一：整段录制所示。音频文件命名无要求，可自定义，示例：VoiceClone.wav。（推荐）方式一：整段录制所有语料录制成一个长音频WAV文件，每句之间需要有2~3秒的停顿。直接上传MetaStudio控制台，无需压缩，无需提供语料txt文件。推荐使用服务预置语料，也可自定义语料。系统会自动根据停顿做切割，自动进行文本识别。方式二：使用预置语料按句录制每个音频文件时长约10秒，不能超过15秒，否则会导致声音模型训练失败。使用预置语料，创建声音制作任务的时候，必须选对声音标签。并将所有音频文件压缩成一个zip文件，示例如图1所示。系统会自动匹配预置文本。图1 音频压缩文件示例方式三：使用自定义语料按句录制每个音频文件时长为5~15秒，不能超过15秒，否则会导致声音模型训练失败。每个音频文件需要匹配一个文本txt文件，且音频内容必须与文本内容完全一致，示例如图2所示。系统会自动使用传入的文本匹配音频。图2 音频压缩文件示例

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-真人声音录制:制作声音模型

制作声音模型准备好音频文件后，就可以上传至MetaStudio控制台，进行声音训练。详细操作如下所示：创建声音制作任务（华为模型）查看声音声音模型制作耗时，如下所示：基础版：约1~3个工作日。进阶版：约1~3个工作日。高品质：约5个工作日。自定义声音应用方式，如下所示：自定义声音生成后，会自动展示在MetaStudio控制台声音列表中，可用于分身数字人视频制作、视频直播或智能交互等场景中。通过MetaStudio的API调用自定义声音。

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-真人声音录制:开始录音

开始录音表2 录音注意事项录音事项说明话筒间距调整与麦克风之间的距离，以一拳距离为宜。不宜离麦太近，防止喷麦或录入呼吸声。录音内容每句文案起始数字编号无需阅读。示例：4. 它不仅拥有出色的功能，还具备卓越的性能，序号4无需阅读。音频格式推荐使用无损音质格式保存音频文件，如WAV格式。原始录音数据，需未经MP3等编码器编码，且为48kHz采样率、16bit编码和单声道。录制风格全程风格保持一致。如直播场景时，录制风格需接近日常直播效果。发音吐字发音吐字清晰、准确，音量适中。如果出现喷麦或嘶嘶声音，建议当前句子重新录制。语速节奏语速自然、平稳，切忌过快过慢、忽快忽慢。音量适中音量不能过小、过大、或忽大忽小，甚至削波爆音。峰值 RMS 在-9左右，无削波。停顿断句在标点或适当断句处自然停顿，需轻声换气。如果录制一个长音频文件时，每句之间需要有2~3秒的停顿。重音位置重音位置要合理，避免错误的重音。阅读发音按顺序读，确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题，需整句重新录制。

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-真人声音录制:录音准备

录音准备表1 录音准备声音类型录制设备和软件录音环境录音文案基础版优先使用专业录音设备录制音频，推荐使用Adobe Audition软件进行录音。如果不具备专业录音设备，可使用手机录制音频，详情请参见手机录制音频。录音环境安静，无回音、混响、噪声，避免出现汽车鸣笛、他人说话、走动等杂声。可使用“分贝仪”应用来测试录音环境的底噪，建议底噪低于0dB。同一批录音必须使用同一套录制设备和环境。建议使用对应版本预置的文案样例：文案样例（基础版）、文案样例（进阶版）、文案样例（高品质）。支持自定义文案，单句文案长短需和样例相当。每个音频文件时长为5~15秒，不能超过15秒，否则会导致声音模型训练失败。不建议临场即兴发挥录制，避免出现较多嗯、啊等语气词，影响连贯性。进阶版高品质专业录音棚+高保真MIC录制。

数字内容生产线 METASTUDIO 声音制作

数字内容生产线 METASTUDIO-购买资源:操作步骤

操作步骤登录MetaStudio控制台，如图1所示。图1 控制台页面资源购买入口有两个，用户可以选择其中一种方式进行购买。单击“购买资源”，进入“购买MetaStudio服务”页面，如图2所示。单击服务列表中，具体产品分类右侧的“购买”，进入“购买MetaStudio服务”页面，如图2所示。 “产品分类”中高亮展示的是SP用户可购买的资源包类型，置灰展示的是未对SP用户开放的资源包类型。图2 购买页面 SP用户根据实际情况，选择需要的产品分类、计费模式和购买数量，单击“去购买”。进入“规格详情”页面，如图3所示。图3 规格详情阅读并勾选“我已阅读并同意《MetaStudio服务使用声明》《华为云隐私政策声明》”后，单击“去支付”。进入订单生成页面，如图4所示。图4 订单生成页面查看云服务订单，并选择付款方式，单击“确认付款”。订单支付成功后，返回如图5所示的页面，说明资源购买成功。图5 订单支付成功

数字内容生产线 METASTUDIO

数字内容生产线 METASTUDIO-购买套餐:操作步骤

操作步骤访问云商店语音合成商品页面，进入云商店的“语音合成”商品购买页面。用户可以在界面下方查看商品详情，确定要购买的商品规格。图1 云商店选择“语音合成体验套餐”，单击“立即购买”，进入购买页面。下面以购买“语音合成体验套餐”为例，进行操作说明。图2 订单确认页面阅读并勾选所有协议和相关授权，单击“去支付”，进入订单支付页面。图3 订单支付页面按照界面提示，选择您的付款方式，完成支付即可。订单支付成功后，进入如图4所示的界面。图4 订单支付成功

数字内容生产线 METASTUDIO

数字内容生产线 METASTUDIO-创建分身数字人定制任务:操作步骤

操作步骤登录MetaStudio控制台。单击“分身形象制作”下方的“开始创建”，进入分身形象制作页面。界面左侧是定制分身数字人的数据上传界面。界面右侧上方，展示分身数字人定制流程。下方展示训练视频拍摄指导和样例视频，包括：拍摄前准备、拍摄中操作和拍摄后处理，有效指导用户拍摄生成一段完整可用的训练视频，用于训练生成分身数字人。图1 定制数字人形象上传分身数字人训练数据。界面操作详情，如表1所示。表1 界面操作说明区域参数说明分身数字人训练数据上传角色名称输入分身数字人的角色名称。示例：云笙。训练视频支持提供如下2类视频，训练生成数字人形象。分身数字人：从本地上传已录制好，且符合拍摄要求的真人人像视频。录制的视频要求4K，时长建议5~6分钟，分辨率≥1080P，宽高比16:9（横屏）或9:16（竖屏），建议优先使用竖屏拍摄。支持MP4、MOV格式的视频。训练生成的分身数字人形象与真人形象完全相同，如图2所示。虚拟数字人：从本地上传3分钟以上的虚拟形象动作和说话视频。视频时长建议3分钟以上，分辨率≥1080P（4K最佳），宽高比16:9（横屏）或9:16（竖屏），建议优先提供竖屏视频。支持MP4、MOV格式的视频。视频中的虚拟数字人形象，是基于真人风格化后的形象，如图2所示。需客户自己准备形象，并生成其动作和说话视频。背景替换分身数字人是否支持更换背景。包含如下选项，请根据实际情况选择：抠除拍摄背景：制作分身数字人视频时，可以更换背景。保留拍摄背景：分身数字人使用拍摄时的原背景，不支持更换背景。视频封面（可选）视频封面。支持jpg、jpeg和png格式。身份认证及授权数据上传联系方式请输入有效的11位手机号码。身份证照片需要分别上传身份证人像面和国徽面的照片。单击“点击上传人像面”，从本地选择身份证人像面照片上传。单击“点击上传国徽面”，从本地选择身份证国徽面照片上传。形象授权上传形象授权书。操作如下所示：单击“授权书模板”，将授权书模板下载本地。打印授权书，由身份证本人完成签署操作。扫描文件生成pdf文件，或拍摄文件生成jpg、png格式的图片。单击“点击上传授权书”，从本地选择pdf、jpg或png格式的授权书上传。授权书内容，可参考授权书。图2 数字人说明单击“提交制作”。数据上传完成后，界面提示“制作任务提交成功！”，如图3所示。数字人定制任务提交成功后，需要等待1天左右的时间审核。任务审核通过后，才能进行算法训练操作。图3 制作任务提交成功用户可以单击“查看制作任务列表”，进入分身数字人定制任务列表页面。单击任务所在行的“查看详情”，进入“定制任务详情”页面。查看分身数字人定制任务审核进展。当前状态为“系统审核中”，需要等待服务管理员审核通过后，状态变更为“待算法训练”。如果数字人定制任务被驳回，需要查看驳回原因，并重新按照要求录制视频并上传。操作步骤详情如下所示：在服务主界面，单击左侧导航栏中的“任务中心”。查看“分身数字人”页签的数字人定制任务列表，找到被驳回的数字人定制任务。任务状态为“审核未通过”。单击任务右侧的“查看原因”，在弹出的“审核未通过”对话框中，查看审核未通过的原因。按照规范重新录制或提供符合规范的视频。单击任务右侧的“更换视频”，上传更新后的视频。数字人定制任务重新进入审核流程。

数字内容生产线 METASTUDIO 形象制作

数字内容生产线 METASTUDIO-激活第三方声音:更新凭证

更新凭证访问我的声音凭证页面，可以看到已激活的accessKey和secretKey信息。图4 声音凭证单击右侧的“编辑”，在弹出“修改序列号”对话框中，输入使用其他华为云账号购买的语音合成套餐用户凭证，如图5所示。用户凭证的查询方式，如获取accessKey和secretKey所示。图5 更新凭证单击“确认修改”，界面提示“修改成功”。修改成功后，自动生效，无需重新激活第三方声音。

数字内容生产线 METASTUDIO （可选）购买第三方声音

数字内容生产线 METASTUDIO-视频制作:操作步骤

操作步骤登录MetaStudio控制台。在“工作台”界面，单击“分身视频制作”下方的“开始创建”。进入视频制作界面，界面详情如视频制作界面说明-图1所示。操作说明如下所示：视频素材区域，除了系统预置素材外，角色还可以自定义新增分身数字人，背景、PPT、贴图、视频和音乐还可以从本地导入使用。从视频素材区域添加到画布区域中的PPT、贴图、视频和数字人支持进行图层管理，如：上移一层、下移一层、置顶、置底、应用到全局、删除等。还支持设置大小，拖动位置。可以单击画布区域右下方的图标，切换视频画面比例为横屏“16:9”或竖屏“9:16”。画布制作完成后，再制作语音。支持下述2种方式生成语音。每个场景仅支持选择一种音频生成方式。文本驱动在文本输入框中，输入文本内容，以生成音频，如图1所示。文本示例：今天是9月26日，星期二，天气晴朗，欢迎大家到访。我们精心布置了现场，室内摆放了各类植物和鲜花，场地宽敞明亮，足够大家在室内共同交流和活动。图1 文本驱动文本内容的操作说明如表1所示。表1 操作说明操作说明插入停顿将鼠标放在需要停顿的文字右侧，单击“插入停顿”。在弹出的提示框中，选择“换气”或者停顿的时间。连读选中需要连读的文本内容，单击“连读”。多音字选中文本中的多音字，单击“多音字”，在弹出的提示框中，选择正确的发音或者自定义发音。别名选中需要通过别名播报的文本内容，单击“别名”，设置为实际播报的内容。数字英文示例数字“1024”的读法如下所示：数字：一零二四数值：一千零二十四日期：十月二十四电话：幺零二四示例英文“API”的读法如下所示：字母：API 单词：api 音标选中英文单词，输入合适的音标。局部语速选中需要变速播报的文本，设置局部语速。取值范围[0.5x，2x]，含义如下所示： 0.5x：0.5倍速播报，即减速播报。 2x：2倍速播报，即加速播报。全局语速设置全局语速。取值范围[0.5x，2x]，含义如下所示： 0.5x：0.5倍速播报，即减速播报。 2x：2倍速播报，即加速播报。音色设置单击音色名称，在弹出的声音对话框中，选择需要的声音。无标注的系统声音，均为免费声音，可直接选用。标注有“第三方”的声音，需要购买激活后才能使用，操作请参考（可选）购买第三方声音。试听单击“试听”，试听语音效果。图标单击图标，放大展示“文本驱动”页签，提升用户操作体验。单击“确定”，可关闭页面。图标调整视频播报的音量。图标单击图标可开启字幕展示，并可在画布左侧设置字幕的字体、大小和位置等。 “音频驱动”方式目前仅支持中文普通话的场景开启字幕。图标展示当前视频的宽高比。图标第一次单击可折叠“文本驱动/视频驱动”，第二次单击后恢复展示。音频驱动需从本地上传已录制好的音频。音频文件格式需要为WAV、MP3或M4A，大小不能超过100M。可单击“导入”上传音频，也可以直接拖拽本地音频文件至提示区域中，完成上传。单击左侧的图标，可试听音频效果。如果音频效果不佳，可以单击“导入”，覆盖更新音频。图2 音频驱动音频制作完成后，可单击“音量”，调整音频的音量。上述操作全部完成后，第一个场景的视频内容已制作完成。如果还需要制作更多场景，可单击“场景”区域的“+”图标，新增场景。制作过程参考第一个场景即可。如果视频内容是分享PPT，可在“PPT”页签，先从本地导入PPT，再插入需要分享的PPT页。每页PPT会对应生成一个场景，依次设置完成所有场景即可。所有场景设置完成后，单击界面右上角的“合成视频”，弹出“合成设置”对话框。参数设置说明如下所示：分辨率：根据实际情况，选择视频的分辨率。导出为：输入导出文件的名称。画质增强：开启后将提升视频清晰度，合成时间相应变长。请根据实际情况确定是否开启。单击“确定”，弹出“视频制作任务中心”对话框。可查看视频合成任务的进度，直至合成成功。单击“合成成功”状态右侧的图标，进入视频详情页面，如图3所示。单击“预览”，可以看到合成的视频。预览过程中，可全屏播放，或下载视频到本地。图3 视频详情如果用户对合成的视频不满意，可以参考下述步骤，进行二次制作，重新合成。在左侧导航栏中，选择“工作台”。在“最近项目”区域，选择“视频项目”页签后，右侧页签选择“视频草稿”，查看视频草稿列表，如图4所示。图4 视频项目将鼠标移至卡片的文字描述区域，单击“编辑视频”，如图5所示。进入视频编辑界面，更新视频内容，重新合成视频。图5 我的视频

数字内容生产线 METASTUDIO

数字内容生产线 METASTUDIO-视频直播界面说明:直播间界面

直播间界面视频直播制作界面如图2所示。各区域详细说明，如表1所示。图2 视频直播制作界面表1 界面说明区域说明 ① 素材区域，包括如下内容：模板：视频直播模板，“模板”页签仅管理员可见。角色：数字人形象列表，可选择需要使用的数字人形象，支持自定义。背景：背景图片列表，支持本地导入。可选择需要使用的背景图。贴图：各类贴图列表，支持本地导入。支持在当前画面基础上，增加贴图，丰富视频画面。视频：无声音视频素材列表，支持本地导入，支持MOV、MP4、M4V、MKV、FLV、3GP、WMV和AVI格式的视频文件。支持添加为背景视频。商品：商品列表。需要自定义创建商品，一个商品可以同时包含贴图、视频、文本和音频内容。文本：文本模板列表，可选择一个文本模板，在视频直播画面上添加文本。 ② 直播画面预览窗口，用于预览视频直播静态画面效果。 ③ 直播剧本由多个场景构成，每个场景由多个段落组成。支持新增、复制场景，并为每个场景设置对应的数字人形象、背景、声音等内容。支持新增、复制段落，或使用txt格式文本导入剧本，平台自动解析输入内容。您可根据需求选择下述一种剧本驱动的方式：剧本驱动支持下述三种方式任选其一：文本驱动：输入文本，通过文本驱动数字人说话。音频驱动：上传音频，通过音频驱动数字人说话。即兴直播：无需设置剧本，直接开播。开播后数字人是不说话的，需要发送互动内容，或者开启真人接管，驱动数字人说话。互动设置：支持弹幕、用户入场、点赞和送礼设置。直播配置：支持开播设置、输出设置、风控设置和更多设置。 ④ 左侧为当前视频直播的名称，支持自定义设置。中间区域，从左往右依次为直播间名称编辑图标、操作回退图标、操作恢复图标和屏幕布局图标，默认为“9:16”。右侧依次为下述内容：：保存图标，图标右侧自动展示最近一次的保存时间。：清空图标，单击可以一次性清空直播间所有内容。

数字内容生产线 METASTUDIO

数字内容生产线 METASTUDIO-视频直播界面说明:视频直播首页面

视频直播首页面分身视频直播首页面，如图1所示。各个页签的说明，如下所示：直播管理：使用数字人创建直播间。操作请参考视频直播。互动管理：支持新增互动库，及其相应的互动规则。互动库可以直接在直播间中导入使用。操作请参考互动管理。商品管理：支持新增商品。商品会自动展示在直播间的“商品”页签中，供直播间添加使用。操作请参考商品管理。直播任务管理：用户创建的直播间列表。支持通过直播间任务进入直播间，修改直播间内容后，重新开播。操作请参考直播任务管理。图1 首页面

数字内容生产线 METASTUDIO

数字内容生产线 METASTUDIO-租户操作:操作步骤

操作步骤登录MetaStudio控制台，如图1所示。如果SP用户已为当前租户分配了可用的资源，租户无需再从服务列表中购买资源了。图1 控制台页面在左侧导航栏中，选择“资源管理”，进入“资源管理”页面，如图2所示。用户可以看到每种资源，已分配的资源总量、可用剩余量、创建时间和到期时间。图2 资源管理在左侧导航栏中，选择“服务概览”，回到MetaStudio控制台主页面。单击“前往MetaStudio”，进入MetaStudio工作台，可以参考用户指南手册，进行相关操作了。

数字内容生产线 METASTUDIO

数字内容生产线 METASTUDIO-关联租户:操作步骤

操作步骤登录MetaStudio控制台，如图1所示。图1 控制台页面在左侧导航栏中，选择“租户管理”，进入“租户列表”页面。单击“关联租户”，进入“关联租户”页面，如图2所示。参数说明如下所示：租户id：请输入项目ID，获取方式如获取项目ID所示。租户的项目ID必须与SP用户申请成为SP用户时，提供的项目ID所在Region保持一致。租户名称：输入自定义租户名称，方便SP用户识别租户身份即可。图2 关联租户单击“创建”，租户创建完成，如图3所示。图3 租户列表如需取消关联，可单击右侧的“取消关联”，在弹出的“取消关联租户提示”对话框中，单击“确定”。租户取消成功后，租户未使用的资源将被收回。

数字内容生产线 METASTUDIO

云服务器内容精选

数字内容生产线 METASTUDIO

7*24

备案

专业服务

退订

建议反馈

售前咨询热线