检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
产品预置了唤醒能力,详见预制唤醒能力,如果用户需要更新唤醒词,需要参考定制唤醒能力处理。唤醒模型定制完成后,产品会提供给用户,用户需要参考更新唤醒模型,将模型更新至本地模型路径中。 使用要求 WebSDK版本为3.0.1及以上。 仅支持数字人平台配置或内置ASR(语音转文本)能力的方案。不支持WebSocket接口驱动数字人方案,即文本驱动方案。
照片建模任务出现异常问题怎么办? 若界面提示模型名重复 由于同一个账号下模型名称不可以重复,因此,您需要重新更换模型名称。 若界面提示照片太大 请您重新更换一个大小低于6MB照片。 父主题: 照片建模
接收资产 支持接收资产管理员或其他租户转移给当前租户的声音和分身模型资产。声音和分身模型资产的接收、激活操作均相同,下面以分身模型资产为例进行操作演示。 注意事项 管理员或其他租户如果推送声音或分身模型资产给当前租户,当前租户需在7天内完成接收和激活操作。如果超过7天未操作,需要
创建角色 支持在奇妙问平台创建角色,并配置已上传的外部知识库和问答库给大模型学习使用,让角色的问答信息更丰富。 创建智能交互数字人中的“第三方应用”选择“奇妙问”时,才需要执行本节操作。 用户使用奇妙问前,需要联系奇妙问的客户经理注册开通服务。 客户经理的联系方式,可以在云商店语音合成商品页面查看,如图1所示。
基于盘古数字人大模型,华为云MetaStudio打造了一站式、全流程的数字人直播服务,通过高效的训练和推理服务,重塑千行百业的电商直播。 数字人模型生成和驱动:基于一张照片或者一段3-5分钟视频,可以生成分身数字人模型,生成效率相比业界提升3倍以上。在数字人模型生成以后,可以通过模型驱动推
在MetaStudio控制台完成交互配置,包括LLM或者大模型配置,通过Web页面浏览,无需开发。 图1 智能交互 场景二:用户使用第三方语言模型,自主开发API实现与数字人对话场景。 开发者基于智能交互服务定义的API接口结构,自主开发第三方语言模型API,对接第三方语言模型到智能交互服务,实现
转移资产 当前租户支持转移声音和分身模型资产给其他租户。声音和分身模型资产的转移操作均相同,下面以分身模型资产为例进行操作演示。 前提条件 如果当前租户希望转移资产给其他租户,需要提交工单或联系大客户经理,并提供已获取的项目ID,申请加入白名单。 租户所在Region的项目ID获取方法,请参见获取项目ID。
Flexus支持通过API集成使用吗? 支持,详见接口创建分身数字人模型训练任务的is_flexus字段。 父主题: API和SDK使用
系统资产标签定义 查询资产列表接口支持使用“tags”标签对分身数字人模型进行分类。 “tags”取值及其含义,如表1所示。 表1 tags标签说明 tags取值类型 说明 数字人类型 取值如下: VIRTUAL_AVATARS:分身数字人 VIRTUAL_HUMANS:虚拟数字人
控制台自助服务,一站式快速生成所需内容 用户申请账号并上传相关授权,拍摄训练所需音视频素材,上传进行模型训练,生成自定义形象和声音。选择背景、声音、模特等内容,基于文本或语音智能驱动,实现视频制作、视频直播、智能交互等能力。 华为云盘古数字人大模型,赋能千行百业数字化营销新模式 MetaStudio服务依托华为云
单击界面右上角的“添加上传”,弹出“资产添加上传”对话框,如图2所示。 支持从本地上传模型、PPT、动画、素材、视频、场景、图片和音乐资产。 图2 上传资产 单击“图片”,进入“图片上传”页面,如图3所示。 请根据实际情况,配置下述信息: 资产标题:图片的标题。 图片简介:图片的基本介绍,方便了解和使用。
图1 直播状态变化流程图 流程图说明,如下所示: PREPROCESSING:MetaStudio直播服务启动加载形象模型的状态。 PLAY_READY:形象模型加载完成的状态。此时数字人处于静默状态,等待开始播放剧本的指令。 PROCESSING:数字人的工作状态。数字人会根据直播任务中预置的文本或音频进行直播。
字人的核心技术主要包括计算机视觉、计算机图形学、动作捕捉和驱动、图像渲染和人工智能等。 服务型数字人是利用深度神经网络进行图像合成、高度拟真的虚拟人。具备如下特点: 2D模型,通过拍摄真人视频训练生成 无表情&骨骼数据 只能由AI驱动 使用既定表情&动作 剧本、画布和设置 视频制
音频文件命名无要求,可自定义,命名示例:Voice.wav。 进阶版 高品质 制作声音模型 准备好音频文件后,就可以上传至MetaStudio控制台,进行声音训练。详细操作如下所示: 创建声音制作任务(自研模型) 查看声音 声音模型制作耗时,如下所示: 基础版:约1~3个工作日。 进阶版:约1~3个工作日。
形象制作和声音制作支持退订吗? 形象制作和声音制作均为一次性计费产品,不支持退订,用户购买前需谨慎评估。 如果是软件问题导致模型效果不理想,可提交工单申请退订产品。产品经理会对实际情况进行核实,对满足条件的发起特殊退订操作。 父主题: 计费咨询
示“热词”配置。 数字人与用户进行智能交互对话时,语音识别不准确的专业词汇,可以作为热词反馈到语音模型,以提高语音识别的准确率。这里仅开启热词功能,实际的热词配置,请参见对话配置。 SIS委托站点 仅开启“委托语言交互服务(SIS)”后,才会展示“SIS委托站点”配置。 从下拉框
String 参数解释: 分身数字人模型版本 约束限制: 不涉及 取值范围: V2: V2版本模型 V3:V3版本模型 V3_2:V3.2版本模型 默认取值: V2 model_resolution 否 String 参数解释: 分身数字人模型分辨率。 约束限制: 不涉及 取值范围:
Studio导出的技能文件导入至科大讯飞的同名技能中。 创建智能交互数字人中的“第三方应用”选择“科大讯飞AIUI通用语义模型”或“科大讯飞星火交互认知大模型”时,才需要执行本节操作。 在MetaStudio控制台创建技能并导出技能文件 登录MetaStudio控制台。 在左侧导航栏中,选择“我的创作”。
对接科大讯飞现网的自然语言模型,具体以“第三方应用”配置的模型为准,可提升应用运行的稳定性。 对话内容合规审核 开启后,自动审核用户提问内容。若存在违禁词,将自动拦截,并返回默认答案。如果关闭,将无法审核用户提问内容。 配置检查 单击“配置检查”,自动检查当前页签配置是否正确,如果有问题,会给出相应提示。
制作好数字人后,可以不购买路数进行直播吗? 数字人模型只能通过MetaStudio服务驱动,不与其他第三方服务兼容。数字人形象制作与视频直播是两个独立的功能,需各自计费。可通过包周期或按需计费方式购买路数。 视频直播间的场景布置好之后,可以通过捕捉网页画面或RTMP推流的方式向第