检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图1 直播状态变化流程图 流程图说明,如下所示: PREPROCESSING:MetaStudio直播服务启动加载形象模型的状态。 PLAY_READY:形象模型加载完成的状态。此时数字人处于静默状态,等待开始播放剧本的指令。 PROCESSING:数字人的工作状态。数字人会根据直播任务中预置的文本或音频进行直播。
照片建模任务出现异常问题怎么办? 若界面提示模型名重复 由于同一个账号下模型名称不可以重复,因此,您需要重新更换模型名称。 若界面提示照片太大 请您重新更换一个大小低于6MB照片。 父主题: 照片建模
录制真人声音,建模生成声音模型。 声音模型可为数字人配音,生成音视频内容,应用于视频制作、视频直播和智能交互,或生成数字人名片和照片数字人。 须知: 制作好的声音模型不支持下载或导出至本地。 声音模型不是通用模型,不与第三方服务兼容。用户在MetaStudio制作的模型,仅支持在本服务内使用。
Flexus支持通过API集成使用吗? 支持,详见接口创建分身数字人模型训练任务的is_flexus字段。 父主题: API使用
前提条件 MetaStudio创建对话时,如果“第三方应用”需要选择“科大讯飞AIUI通用语义模型”或“科大讯飞星火交互认知大模型”时,才需要执行创建智能交互数字人(科大讯飞)操作,详情请参考表1。 父主题: 创建智能交互数字人(科大讯飞)
上传资产 支持从本地上传资产,包括:模型、PPT、动画、素材、视频、场景、图片、音乐。资产上传的操作均相同,下面以上传图片为例进行演示。 操作步骤 登录MetaStudio控制台。 在左侧导航栏中,单击“我的创作”。 选择“资源”页签,如图1所示。 图1 资源页面 单击界面右上角
操作前提 前提条件 需要申请开通智能交互权限后,才可集成智能交互SDK使用。 WebSDK使用限制 由于浏览器的安全策略限制,仅支持通过“https://域名”方式访问,否则无法正常加载运行智能交互WebSDK。 父主题: 智能交互客户端SDK
技术主要包括计算机视觉、计算机图形学、动作捕捉和驱动、图像渲染和人工智能等。 服务型数字人:利用深度神经网络进行图像合成、高度拟真的虚拟人。 具备如下特点: 2D模型,通过拍摄真人视频训练生成 无表情&骨骼数据 只能由AI驱动 使用既定表情&动作 IP型数字人:由计算机图形学技术
音频文件命名无要求,可自定义,命名示例:Voice.wav。 进阶版 高品质 制作声音模型 准备好音频文件后,就可以上传至MetaStudio控制台,进行声音训练。详细操作如下所示: 创建声音制作任务(自研模型) 查看声音 声音模型制作耗时,如下所示: 基础版:约1~3个工作日。 进阶版:约1~3个工作日。
Windows或Android系统。 麦克风 需要有麦克风,且要保障1米以内的拾音效果。 扬声器 需要有扬声器。 触摸屏 需要有触摸屏。 带宽 4M以上。 由于浏览器的安全策略限制,仅支持通过“https://域名”方式访问,否则无法正常加载运行智能交互WebSDK。 智能交互界面对浏览器的要求,如表2所示。 表2
系统资产标签定义 查询资产列表接口支持使用“tags”标签对分身数字人模型进行分类。 “tags”取值及其含义,如表1所示。 表1 tags标签说明 tags取值类型 说明 数字人类型 取值如下: VIRTUAL_AVATARS:分身数字人 VIRTUAL_HUMANS:虚拟数字人
主要功能如下所示,详见功能特性。 数字内容生产线Metastudio通过AI学习真人形象和声音,来生成数字人模型,相应功能为形象制作、声音制作和Flexus分身数字人。再将模型用于音视频内容的创作,相应功能为视频制作、视频直播和智能交互,主要是生成画面内容。也可以直接通过静态的人脸照片生成视频,对应功能为照片数字人。
String 参数解释: 分身数字人模型版本 约束限制: 不涉及 取值范围: V2: V2版本模型 V3:V3版本模型 V3_2:V3.2版本模型 默认取值: V2 model_resolution 否 String 参数解释: 分身数字人模型分辨率。 约束限制: 不涉及 取值范围:
编译环境 建议Node 17+。 编译工具 建议Webpack 5 + babel 7。 浏览器 浏览器使用限制,请参见表2。 由于浏览器的安全策略限制,仅支持通过“https://域名”方式访问,否则无法正常加载运行智能交互WebSDK。 表2 浏览器适配详情 操作系统类型 浏览器类型
需注意: 首次购买或创建资产时,免费赠送5G存储空间。 下述场景,使用资产空间不会计费: 用户上传的分身数字人模型、3D数字人模型和声音。 平台生成的分身数字人模型、3D数字人模型和声音。 平台合成的视频资产6个月内,默认不计费。6个月以后,开始计费。 资产管理的含义:提供数字资产存储、简单分类、搜索等基础管理能力。
SDK隐私声明 数字人智能交互Web SDK是由华为云计算技术有限公司(以下简称“我们”或“华为云”)面向华为云客户(以下简称“客户”)提供的数字人智能交互开放能力及服务。 客户根据数字人智能交互Web SDK的开发文档和指南在其应用中集成了数字人智能交互Web SDK后,我们将通过被集成的数字人智能交互Web
科大讯飞平台应用的“自然语言模型”配置为“AIUI通用语义模型”时,如配置应用所示。请从下拉框中选择“科大讯飞AIUI通用语义模型”。 科大讯飞平台应用的“自然语言模型”配置为“星火交互认知大模型”时,如配置应用所示。请从下拉框中选择“科大讯飞星火交互认知大模型”。 应用名称 与科大讯
算法目的意图 可以通过有授权的真人语音音频,在预训练模型基础上微调生成数字人声音模型,该模型可用于基于文本合成类似真人音色的数字人语音。 华为云MetaStudio数字人照片建模算法 表3 照片建模算法 算法项 描述 算法名称 华为云MetaStudio数字人照片建模算法 备案编号
选择“第三方语言模型”。 应用名称 用户根据实际情况自定义即可。 APPID MetaStudio服务对接第三方语言模型LLM时,需要LLM提供的APPID信息。 APPKEY MetaStudio服务对接第三方语言模型LLM时,需要LLM提供的APPKEY信息。 第三方语言模型地址 M
科大讯飞平台应用的“自然语言模型”配置为“AIUI通用语义模型”时,如配置应用所示。请从下拉框中选择“科大讯飞AIUI通用语义模型”。 科大讯飞平台应用的“自然语言模型”配置为“星火交互认知大模型”时,如配置应用所示。请从下拉框中选择“科大讯飞星火交互认知大模型”。 应用名称 与科大讯