检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数字内容生产线Metastudio通过AI学习真人形象和声音,来生成数字人模型,相应功能为形象制作、声音制作和Flexus分身数字人。再将模型用于音视频内容的创作,相应功能为视频制作、视频直播和智能交互,主要是生成画面内容。也可以直接通过静态的人脸照片生成视频,对应功能为照片数字人。 父主题: 产品咨询
登录MetaStudio控制台。 在左侧导航栏中,选择“我的创作”。 选择“资源”页签,单击“声音”页签。 单击需要使用的声音卡片,进入“声音详情”界面。 这里的“资产编号”即语音同步合成WebSocket接口需要使用的音色ID。 图1 声音详情界面 在控制台查询音色ID(方式二)
窗口捕获方式开播。 智能交互 对接第三方大脑,通过数字人交互的方式与用户进行问答。场景应用广泛,包括智能导购、文旅导览、智能问答、营业厅客服等。 注意: 数字人回答的内容,是由对接的第三方大模型或知识库返回的答案决定的。 资产管理 支持从本地上传模型、PPT、动画、素材、视频、场景、图片、音乐等资产。
大客户可以提交工单,或者联系大客户经理,并提供已获取的项目ID,申请开通SP模式。 获取项目ID 登录MetaStudio控制台。 将鼠标移至界面右上方的用户名称位置,在弹出的下拉框中选择“我的凭证”。 进入“我的凭证 > API凭证”页面,如图1所示。 图1 项目列表 父主题: SP用户
仅支持数字人平台配置或内置ASR(语音转文本)能力的方案。不支持WebSocket接口驱动数字人方案,即文本驱动方案。 在调用create接口之前,必须要有用户点击集成WebSDK的页面的行为。 浏览器通过有上述点击的行为,才能获取采集声音的权限。否则无法采集声音,无法正常使用语音唤醒能力。
质量。通过减少对人力的依赖,使教育机构可以将更多精力投入到创新和教学内容的优化上,从而实现更高效的教育体系。 医疗健康 医学科普是近年来政策倡导的一大方向。通过医学科普,对改善已患病人群的术后身心健康等问题起着关键作用。以视频形式为患者提供诊前、诊中、诊后的医学科普服务,加强患者
用户也可以使用批量导入的方式,一次性添加完成问题类别及其所有问答对。操作方式如下所示: 在左侧导航栏中,选择“知识库 > 问答管理”。 单击界面右侧的“导入”,弹出“导入训练语料”对话框。 图7 导入训练语料 单击“下载模板”,将语料模板下载至本地。 请按照模板文件的格式,填充完成所有问题分类及其全量语料对,保存文件。
机录制音频。 具体的录音注意事项,如表2所示。 表2 录音注意事项 录音事项 说明 话筒间距 调整与麦克风之间的距离,以一拳距离为宜。不宜离麦太近,防止喷麦或录入呼吸声。 录音内容 每句文案起始数字编号无需阅读。 示例:4. 它不仅拥有出色的功能,还具备卓越的性能,序号4无需阅读。
照片数字人视频制作 按需计费 按需套餐包 分身数字人名片制作 按需计费 按需套餐包 操作步骤 使用SP用户登录华为云控制台,单击界面左上角的图标,在弹出的服务列表界面中,搜索并单击“数字内容生产线 MetaStudio”服务,进入MetaStudio服务概览页面,如图1所示。 图1 服务概览页面
支持通过视频来源的维度,筛选展示下方的视频。 视频列表 默认展示全量视频。 查看视频 将鼠标放在视频上方,视频右上角展示图标。单击图标,可查看视频。 插入视频 将鼠标放在视频上方,视频右上角展示图标。单击图标,添加至当前场景的视频直播画面中。 插入的视频播放的时候默认无声音,仅有画面。 在视频直播画面预览区域,如
在左侧导航栏中,单击“我的创作”。 选择“智能交互 > 技能管理”页签,如图3所示。 技能是一组智能问答对的组合,用户需要先创建技能,再添加所有与当前技能相关的问答对。 图3 智能交互页面 单击右上方的“创建技能”,进入“创建技能”页面,如图4所示。 输入如下参数的值: 技能名称:技能
右侧界面的预览效果就是数字人名片的实际生成效果,请输入适量的字符,以确保正常的展示效果。 公司 必填项,数字人公司。 内容较多时,最多支持在名片中分2行展示,超出2行后,默认不展示。为保证名片的效果展示,请保持合理的输入长度。 联系电话 必填项,数字人联系电话,请输入有效的联系方式。 公司地址
使用AK/SK认证时,您可以基于签名算法使用AK/SK对请求进行签名,也可以使用专门的签名SDK对请求进行签名。详细的签名方法和SDK使用方法请参见API签名指南。 签名SDK只提供签名功能,与服务提供的SDK不同,使用时请注意。 Token认证 Token的有效期为24小时,需要使用一个Token鉴权时,可以先缓存起来,避免频繁调用。
推荐使用48kHz采样率录制音频。 安卓手机的超级录音机的采样率默认为高清 44100Hz,无需修改。 采样位 推荐使用48bit采样位录制音频。 安卓手机的超级录音机的采集位默认为16bit,无需修改。 声道 推荐使用单声道录制音频。 安卓手机的超级录音机默认为单声道录制,无需修改。
视频直播 提示模板不可用怎么办? 直播业务媒体流如何应对防火墙限制? 第三方平台的直播画面不清晰怎么办? 第三方平台的直播画面突然中断是怎么回事? 第三方平台的直播画面没有声音怎么办?
登录MetaStudio控制台。 在左侧导航栏中,单击“任务中心”。 选择“声音制作”,确认声音制作任务已训练完成。 在左侧导航栏中,单击“我的创作”。 选择“声音”,找到已生成的声音,单击声音卡片中的头像,即可试听声音效果。 用户还可以执行如下操作: 单击“视频制作”,基于已有声音,进行视频制作,操作请参考视频制作。
Flexus数字人采用实景拍摄,视频制作时不支持切换背景。 Flexus分身数字人左上角会有标识。未带有标识的数字人均为标准版形象。 需注意Flexus视频制作和标准版视频制作分开计费,从各自的套餐包中扣除费用。 Flexus视频制作:必须使用Flexus形象,声音使用不受限制。 按视频制作
单声道音频。 清晰人声无背景音乐与杂音。 音频格式要求,如下所示: 支持的格式为:MP3、WAV。 大小不超过20MB,时长不超过5分钟。 文本驱动 文本驱动方式的要求如下所示: 文本输入长度不超过2000字。 通过文本合成的音频时长不能超过5分钟。 在照片数字人制作页面,选择“文本驱动”
照片建模 照片建模任务创建失败是什么原因? 照片建模任务出现异常问题怎么办? 风格化照片建模的照片有什么要求? 风格化照片建模生成的模型文件是什么格式? 表情驱动数据格式如何定义? 肢体驱动数据格式如何定义?
直播控制HTTP Command命令说明 直播控制RTSA Command命令说明 文本驱动SSML定义 系统资产标签定义 服务支持的字体 资源类型 使用Java代码生成文件内容的MD5值 预置音色ID列表 查询音色ID