检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
000212007 无法从mps设置配额 mps设置配额失败 请联系技术支持 500 MSS.000212008 无法从vcms设置配额 vcms设置配额失败 请联系技术支持 500 MSS.000212009 无法从dhtm设置配额 dhtm设置配额失败 请联系技术支持 500
系统资产标签定义 查询资产列表接口支持使用“tags”标签对分身数字人模型进行分类。 “tags”取值及其含义,如表1所示。 表1 tags标签说明 tags取值类型 说明 数字人类型 取值如下: VIRTUAL_AVATARS:分身数字人 VIRTUAL_HUMANS:虚拟数字人
如何实时切换智能交互的语言和声音? 在展厅等智能交互场景中,会有切换智能交互界面,数字人说话语言和声音的需求。 请参考下述步骤操作: 登录MetaStudio控制台。 如果是展厅场景,需要切换到“华北-北京四”区域。因为展厅的配置,均在“华北-北京四”区域。 在左侧导航栏中,选择“我的创作”。 界面右侧选择“智能交互
形象。 数字人定制任务,会重新进行模型训练。等待模型训练完成后,用户可以二次审验,继续4的操作,直至生成符合要求的分身数字人形象。 此时,在“我的创作 > 分身形象”页面,可以看到新增的数字人形象卡片,如图3所示。也可以在MetaStudio控制台首页“最近项目”区域的“数字人”页签中查看。
相同,下面以分身模型资产为例进行操作演示。 注意事项 管理员或其他租户如果推送声音或分身模型资产给当前租户,当前租户需在7天内完成接收和激活操作。如果超过7天未操作,需要管理员或其他租户重新推送资产给当前租户。 操作步骤 登录MetaStudio控制台。 在左侧导航栏中,单击“我的创作”。
如何实时切换智能交互的语言和声音? 在展厅等智能交互场景中,会有切换智能交互界面,数字人说话语言和声音的需求。 请参考下述步骤操作: 登录MetaStudio控制台。 如果是展厅场景,需要切换到“华北-北京四”区域。因为展厅的配置,均在“华北-北京四”区域。 在左侧导航栏中,选择“我的创作”。 界面右侧选择“智能交互
1~5分钟的真人实景拍摄视频,详见Flexus分身数字人形象采集指南。 身份证正反面照片。 形象授权签署文件,如授权书所示。 操作步骤 登录MetaStudio控制台。 单击“Flexus分身数字人”,进入Flexus分身数字人流程介绍页面,如图1所示。 请认真阅读界面上方的规范和避免出现的问题,并仔细观看下方的形象拍摄视频。
放购买的资源包,普通用户不可见。 所有资源的购买操作均相同,下面以“分身数字人形象制作”为例,进行操作演示。 前提条件 当前用户已拥有SP账号。 操作步骤 使用SP用户登录华为云控制台,单击界面左上角的图标,在弹出的服务列表界面中,搜索并单击“数字内容生产线 MetaStudio
产品优势 控制台自助服务,一站式快速生成所需内容 用户申请账号并上传相关授权,拍摄训练所需音视频素材,上传进行模型训练,生成自定义形象和声音。选择背景、声音、模特等内容,基于文本或语音智能驱动,实现视频制作、视频直播、智能交互等能力。 华为云盘古数字人大模型,赋能千行百业数字化营销新模式
新推送资产给当前租户。 声音和分身模型资产的接收、激活操作均相同,下面以分身模型资产的接收、激活操作为例演示。 登录MetaStudio控制台。 在左侧导航栏中,单击“我的创作”。 选择“资源”页签,如图1所示。 图1 资源页面 单击界面右上方的图标,进入“接收资产管理”页面,如图2所示。
图5 文档清洗 表1 参数说明 参数 说明 分段设置 选择文字分段的方式。 包含如下选项: 自动分段:自动对文档进行分段处理。单击“自动分段”,“分段预览”区域会展示自动分段后的文本效果。 手动分段:自定义分隔符和分隔长度的方式,对文档进行分段处理。 索引配置 配置索引的类型。 包含如下选项:
输入命令行ffmpeg后可以显示版本号,说明安装成功。 解决方法 通过剪映或者ffmpeg可以将H265(HEVC)视频的格式转码为H264,再上传至MetaStudio控制台,进行形象制作。 以ffmpeg为例,输入命令行:ffmpeg -i 视频文件名 -c:v libx264 output.mp4。示例: ffmpeg
播画面中。 在左侧的“文本设置”界面,设置文本内容和字体样式,如图7所示。 在视频直播画面预览区域,如果存在多种视频直播素材,支持对文本进行图层管理,如:上移一层、下移一层、置顶、置底、复制、应用到全局、删除等。还支持设置大小,拖动位置。 图7 文本设置 父主题: 视频直播
客户声音制作案例 单击声音样例.zip,下载如表1所示的音频文件。 mos分是从音色相似度、情感表达效果和声音音质方面,进行整体效果综合评分的结果。 表1 音频文件 版本 类别 原音文件 合成音文件 版本差异 适用场景 基础版声音制作 女声 基础版媒体1.wav 基础版媒体2.wav
如何获取项目ID? 登录管理控制台。 鼠标悬停在右上角的用户名,选择下拉列表中“我的凭证”。 图1 管理控制台 在“API凭证”页面的项目列表中查看项目ID。 图2 获取项目ID 父主题: API和SDK使用
支持上传正面清晰的人像照片,生成会说话的照片数字人视频。 操作限制 照片数字人视频制作限制,如照片数字人限制所示。 操作步骤 登录MetaStudio控制台。 在“工作台”界面,单击“照片数字人”,进入照片数字人制作页面,如图1所示。 界面左侧展示配置项,右侧展示预览效果。配置操作,请参考表1。
本根节点。 <break/>标签用于静音停顿,可设置停顿时长。 <phoneme></phoneme>标签,用于标记多音字发音。 <say-as></say-as>标签用于指定数字或英文的读法。 <sub></sub>标签用于设置当前标记文字的别名,即替代读法。 <prosody
用户使用视频直播或智能交互接口调用音色时,需要先确认能否在MetaStudio控制台的视频直播间编辑界面或智能交互对话设置页面,选到当前音色。 如果界面正常展示且可以选择此音色使用,说明接口可以正常调用此音色,否则接口无法调用。 API流控 数字内容生产线服务对服务端API设置了调用次数限制,避免出现短时间内重复调用API,服务中断的情况。
第三方平台开播指南 视频直播支持对接淘宝、抖音、拼多多等第三方平台进行直播,相关操作请提交工单或联系客户经理获取。 常见问题 第三方直播平台直播画面不清晰怎么办? 第三方平台直播画面突然中断是怎么回事? 父主题: 附录
SDK概述 数字人智能交互SDK是基于数字内容生产线服务提供的能力进行封装,以简化用户的开发工作。用户直接调用智能交互Web SDK提供的接口,即可实现使用数字人智能交互业务能力的目的。 智能交互提供了如下主流平台SDK供开发者使用。 表1 客户端SDK 客户端 集成SDK 接口参考