检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数字内容生产线Metastudio通过AI学习真人形象和声音,来生成数字人模型,相应功能为形象制作、声音制作和Flexus分身数字人。再将模型用于音视频内容的创作,相应功能为视频制作、视频直播和智能交互,主要是生成画面内容。也可以直接通过静态的人脸照片生成视频,对应功能为照片数字人。 父主题: 产品咨询
在画布区域,设置角色、背景、贴图、视频等内容。 详细操作请参见视频制作素材操作详情。 画布制作完成后,再制作语音。 选择“文本驱动”的方式。在文本输入框中,输入文本内容,以生成音频,如图2所示。 文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家到访。我们精心布置了现场,室内摆放了各类植物和鲜花,场地宽敞明亮,足够大家在室内共同交流和活动。
1864标准计算出消息体的MD5摘要字符串,即消息体128-bit MD5值经过base64编码后得到的字符串。 md5值获取详情请参考使用Java代码生成文件内容的MD5值。 约束限制: 不涉及 取值范围: 字符长度24位。 默认取值: 不涉及 file_size 是 Long 参数解释: 文件总的大小。
subtitle_file_state 否 String 字幕文件生成状态。 GENERATING:字幕文件生成中。 GENERATE_SUCCEED:字幕文件生成成功。 GENERATE_FAILED:字幕文件生成失败。 job_id 否 String 字幕文件生成任务ID。 表21 OutputAssetConfig
避免头部大幅度转动或者摆动,避免嘴巴被遮挡,可能造成口型异常。 视频中需保证仅出现录制者及其声音。如果出现其他人物形象或声音,将会影响口型生成效果和声音克隆效果。 避免动作幅度过大超出画面;避免相机距离人过远;建议人脸在画面中的占比超过1/5。 15秒静默状态时,需正视镜头,面带微笑,嘴巴闭合,保持静默。
视频直播间的场景布置好之后,可以通过捕捉网页画面或RTMP推流的方式向第三方直播平台传输画面。MetaStudio控制台的场景布置是免费的,生成并输出直播画面是付费的。且MetaStudio服务主要是生成数字人音视频内容,是直播内容输出源,不是直播平台。 父主题: 计费咨询
声音制作 MetaStudio支持自定义生成声音。 操作前准备 用户创建声音制作任务前,需要参考操作步骤准备如下内容: 参考真人声音录制,提前录制一个WAV或MP3格式的长音频文件,每句之间需要有2~3秒的停顿。语料推荐使用文案样例(基础版)。 声音授权签署文件。 操作步骤 登录MetaStudio控制台。
第三方平台开播指南 MetaStudio直播功能的主要作用是生成数字人直播的音视频内容,并非直播平台。 可以通过下述2种方式在第三方平台开播: 窗口捕获方式开播:MetaStudio直播返回的窗口可供第三方直播平台(淘宝、抖音、拼多多等)抓取用于开播。 RTMP推流:即RTMP直
输入互动库的名称。支持对互动库执行如下操作。 单击互动库右侧的,从下拉框中选择“重命名”,修改互动库名称。 单击互动库右侧的,从下拉框中选择“复制”,复制当前互动库,生成一个新互动库。 单击互动库右侧的,从下拉框中选择“删除”,删除当前互动库。 图2 互动库 选中左侧的互动库,单击界面右侧的“新建”,弹出“新建互动”对话框,如图3所示。
如何将WEBM视频转成MOV格式? 问题描述 视频制作时,如果使用透明背景合成视频,导出时仅支持生成WEBM格式视频。而常用的视频工具剪映、Premiere Pro等,不支持WEBM格式,需要先参考本节转为MOV格式。 解决方法 单击webm2mov,将视频格式转换小工具webm2mov_20240814
MetaStudio已经预置了各种类型的声音,可以在视频制作界面或视频直播界面查看。如果预置声音仍无法满足用户需求,可使用第三方模型“出门问问”自定义生成声音。第三方模型“出门问问”的详细说明,如下所示: 输入的语言不受限制。默认支持19种输入语言(中文、英文、粤语、德语、法语、土耳其语、菲
String 用户类型。 CAPTURE: 直播助手,将摄像头获取视频流推送到RTC房间 ANIMATION: VDS服务,从RTC房间拉视频流生成动作数据 RENDER: 渲染服务,将动作数据渲染成数字人动画 PLAYER: 普通观看方,可选择原始视频流或者数字人动画视频流观看 INFERENCE_USER:
数字人语音驱动算法可用于短视频制作、直播、交互等场景。在特定场景中,可替代人快速生成视频内容,以提升内容生成的效率。 算法目的意图 通过学习语音与表情基系数的关系,实现使用语音生成视频的能力。在使用数据人形象生成视频的场景,包括短视频制作、直播、智能交互等,可快速生成不同台词的视频内容。
首页面。 单击“直播任务管理”,进入如直播任务管理所示的页面。 可以看到用户创建的所有直播间的开播任务列表。如果同一个直播间,开播多次,则生成对应个数的开播任务。 可以查看任务ID、直播名称、封面、创建时间、开播时间、结束时间和当前的直播状态(直播中或直播结束)。 如果直播结束,
(可选)单击“对话配置”页签,配置对话,详细操作请参考对话配置。 单击“发布设置”页签,参考表2配置参数。 表2 发布设置 参数 说明 激活码 智能交互项目发布成功后,自动生成激活码。 并发数 同时使用当前激活码进入智能交互对话项目链接的用户数。请根据实际需要进行配置,否则当用户同时访问数大于这里配置的并发数时,智能交互界面会报“MSS
CALLBACK:回调给其他服务,携带设置的话术。 SHOW_LAYER:仅显示叠加图层,不影响话术。 INTELLIGENT_REPLY:使用配置的大模型生成回复话术。 默认取值: 不涉及 layer_config 否 SmartLayerConfig object 智能图层配置。 extra_layer_config
X-Request-Id 否 String 请求requestId,用来标识一路请求,用于问题跟踪定位,建议使用uuId,若不携带,则后台自动生成 X-Auth-Token 否 String 用户Token。使用Token鉴权方式时必选。 通过调用IAM服务获取用户Token接口获取。
CALLBACK:回调给其他服务,携带设置的话术。 SHOW_LAYER:仅显示叠加图层,不影响话术。 INTELLIGENT_REPLY:使用配置的大模型生成回复话术。 默认取值: 不涉及 layer_config SmartLayerConfig object 智能图层配置。 extra_layer_config
CALLBACK:回调给其他服务,携带设置的话术。 SHOW_LAYER:仅显示叠加图层,不影响话术。 INTELLIGENT_REPLY:使用配置的大模型生成回复话术。 默认取值: 不涉及 layer_config SmartLayerConfig object 智能图层配置。 extra_layer_config
CALLBACK:回调给其他服务,携带设置的话术。 SHOW_LAYER:仅显示叠加图层,不影响话术。 INTELLIGENT_REPLY:使用配置的大模型生成回复话术。 默认取值: 不涉及 layer_config 否 SmartLayerConfig object 智能图层配置。 extra_layer_config