检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
每句之间有2~3秒的停顿。音频时长3~10分钟,建议5分钟。 请完善声音信息 输入声音名称,示例:欢快女声。 请制作声音 使用“语料上传”的方式,直接上传一个已录制好的长音频WAV或MP3文件,无需压缩,无需携带文案txt文件。 请选择声音性别 选择声音的性别,示例:女生。 原始输入语言
在“商品管理”页面,新增一行商品。 支持对商品执行如下操作: 单击商品所在行的“查看”,进入商品详情界面,支持单击“编辑”,修改商品信息。 单击商品所在行的“编辑”,进入商品修改页面,修改商品信息后,单击“保存”。 单击商品所在行的“删除”,删除当前商品。 父主题: 视频直播
如果转移资产时,勾选了“资产转移后用户自动接收”和“是否自动激活”,则对应资产转移任务的状态为“已接收”,否则为“待接收”。 支持资产任务执行下述操作: 查看:单击任务右侧的“查看”,查看转移任务详情。 取消转移:未接收的资产,支持单击转移任务右侧的“取消转移”,收回资产。 图3 转移任务管理 父主题: 资产管理
分辨率:根据实际情况,选择视频的分辨率。 导出为:输入导出文件的名称。 画质增强:开启后将提升视频清晰度,合成时间相应变长。请根据实际情况确定是否开启。 单击“确定”,弹出“视频制作任务中心”对话框。 可查看视频合成任务的进度,直至合成成功。 单击“合成成功”状态右侧的图标,进入视频详情页面,如图4所示。
请根据实际情况,配置下述信息: 资产标题:图片的标题。 图片简介:图片的基本介绍,方便了解和使用。 风格:关键词标签,方便用户搜索此类型的资产。 基本信息:图片的用途。 图3 上传图片 单击“图片上传”区域,从本地选择需要上传的图片资产。 单击界面右上方的“保存”,在弹出的“资产保存成功”对话框中,单击“知道了”。
etaStudio控制台,根据开通引导完成服务开通。 IAM权限管理 如果华为云账号无法满足用户的使用诉求,可参考创建用户并授权使用MetaStudio,创建IAM用户,进行精细化的权限管理。 推荐浏览器 推荐使用Chrome浏览器访问MetaStudio控制台。
录制? 大部分相机内置麦克风的录制效果也能满足我们对声音的要求。我们对声音的清晰度可以有适度的妥协,但请务必保证底噪不能太大,且不能有其他人声出现,尤其是被拍摄模特正在说话的时候。 模特形象 分身数字人不支持替换衣服,因此,您在录制时的着装会决定您的数字人穿着。 在拍摄前,我们建议参照如下条目,对您的形象进行检查。
前提条件 MetaStudio创建对话时,如果“第三方应用”需要选择“科大讯飞AIUI通用语义模型”或“科大讯飞星火交互认知大模型”时,才需要执行创建智能交互数字人(科大讯飞)操作,详情请参考表1。 父主题: 创建智能交互数字人(科大讯飞)
使用本接口前,需要在MetaStudio控制台服务概览页面,开通“声音合成”的按需计费。 详细操作为:单击“声音合成”卡片中的“去开通”,在弹出的“开通按需计费服务提示”对话框中,勾选同意协议。单击“确定”,开通按需计费。开通后的效果如图1所示。 如需使用第三方声音进行语音合成,请购买出门问问声音套餐。
SDK概述 数字人智能交互SDK是基于数字内容生产线服务提供的能力进行封装,以简化用户的开发工作。用户直接调用智能交互Web SDK提供的接口,即可实现使用数字人智能交互业务能力的目的。 智能交互提供了如下主流平台SDK供开发者使用。 表1 客户端SDK 客户端 集成SDK 接口参考
满足批量生成数字人诉求,平台支持几百到上千的并发模型训练任务。 大幅提升数字人生产质量 模型质量提升30%以上,数字人名片迅速引流新阵地直播产品,业务推广无后顾之忧。 解决产品端到端服务能力 可接入其他AIGC产品,打造AIGC数字人视频生成到剪辑端到端的解决方案能力。 多行业多场景广泛应用 MetaStu
MetaStudio的计费项分为分身数字人费用、3D数字人费用和资产管理费用三类。 分身数字人费用:包括分身数字人形象制作、声音制作、分身数字人视频制作、分身数字人视频直播、照片数字人视频制作和分身数字人名片制作的费用。 3D数字人费用:包括照片建模、语音驱动和视觉驱动的费用。 资产管理费用:即服务资产管理的费用。
udio资源。 根据企业用户的职能,设置不同的访问权限,以达到用户之间的权限隔离。 将MetaStudio资源委托给更专业、高效的其他华为云账号或者云服务,这些账号或者云服务可以根据权限进行代运维。 如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,
speechRecognized的流式返回是覆盖式返回。后一条通知中的text字段值包含前一条通知的内容。例如:第一条通知的text值为“你吃”,第二条新识别了“饭了么”,则第二条text值为“你吃饭了么”。 semanticRecognized的流式返回是分段式返回。后一条通知中的text字段值
预置模特使用限制 MetaStudio控制台预置模特的有效使用期为3年,在2027年的年中前用户可以放心使用。具体下线时间请关注MetaStudio服务,会提前3个月在现网开放下线公告。 父主题: 使用限制
PREPROCESSING:MetaStudio直播服务启动加载形象模型的状态。 PLAY_READY:形象模型加载完成的状态。此时数字人处于静默状态,等待开始播放剧本的指令。 PROCESSING:数字人的工作状态。数字人会根据直播任务中预置的文本或音频进行直播。 PLAY_PAUSE:数字人直播
资源类型 MetaStudio计费中涉及的资源类型,包括商用资源类型、POC测试用需管理员分配的资源类型。 表1 商用资源类型(租户订购) 类别 资源名称 单位 计费模式 资源类型编码 备注 分身数字人 形象制作 个 一次性 hws.resource.type.metastudio
租户管理 查看租户资源用量信息 查看租户资源列表 统计时间段内过期的资源数量
图3 待接收资产 单击界面左上方的“返回”,回到“资源 > 已激活”页面。 选择“未激活”页签,单击已接收资产卡片中的“激活”,在弹出的“提示”对话框中,单击“确认”。 界面提示“资产已激活”,说明资产已激活成功。用户可以在“已激活”页签中查看已激活的分身模型资产。 图4 激活资产
创建智能交互数字人(科大讯飞) 前提条件 创建技能 创建科大讯飞应用(AIUI通用语义模型) 创建科大讯飞应用(星火交互认知大模型) (可选)提升问答交互次数 创建智能交互数字人 父主题: 智能交互