检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
华为云MetaStudio分身数字人驱动算法 备案编号 网信算备520111252474601240045号 算法基本原理 分身数字人驱动算法是指通过深度学习生成数字人驱动模型,模型生成后,输入音频来合成数字人视频的一种技术。 其基本情况包括: 输入数据:真人视频、音频。 算法原理:通过深度学习算法来学习真人视频
查询用户配置的个性化音频时长 功能介绍 查询用户配置的个性化音频时长 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/voice-training-manage/user/tenant-duration-cfg 表1 路径参数 参数 是否必选 参数类型
前提条件 需要申请开通智能交互权限后,才可以使用分身数字人智能交互功能。 智能交互对硬件设备的最低配置要求,如智能交互使用限制所示。 与数字人智能交互的界面,对浏览器的要求,如智能交互使用限制所示。 父主题: 智能交互
提交工单申请开通,并提供需要使用的第三方应用名称。 单击“添加意图及话术”,新增“意图1”配置框。 需配置下述参数: 意图1:从下拉框中选择意图,这里展示的意图是服务预置的,不支持从当前界面增加新的意图名称。用户也可以在提交工单时,同步补充需要的意图列表,让服务进行预置。仅支持选
智能交互限制 智能交互对硬件设备的最低配置要求,如表1所示。 表1 硬件设备要求 硬盘配置 最低配置 CPU i5及以上版本。 内存 8G以上。 硬盘 128G及以上。 操作系统 Windows或Android系统。 麦克风 需要有麦克风,且要保障1米以内的拾音效果。 扬声器 需要有扬声器。
获取。 响应消息头中X-Subject-Token的值。 Authorization 否 String 使用AK/SK方式认证时必选,携带的鉴权信息。 X-Sdk-Date 否 String 使用AK/SK方式认证时必选,请求的发生时间。 格式为(YYYYMMDD'T'HHMMSS'Z')。
如果训练生成的数字人形象满足需求,单击右下方的“通过”。在弹出的“确认”对话框中,单击“确认”,数字人形象生成完成。 如果训练生成的数字人形象不满足需求,单击右下方的“驳回”,进入“问题填写”界面。 输入“问题标题”、“问题描述”,并上传相应的附件,如更新后的绿幕视频文件等内
配置特殊词表 支持全局设置多音字或者别名,设置完成后,所有视频草稿自动生效。 操作步骤 登录MetaStudio控制台。 在左侧导航栏中,单击“我的创作”。 选择“声音”页签,单击界面右侧的“特殊词表”,进入如图1所示的界面。 图1 特殊词表 单击“新建词表”,界面新增一行特殊词,如图2所示。
获取。 响应消息头中X-Subject-Token的值。 Authorization 否 String 使用AK/SK方式认证时必选,携带的鉴权信息。 X-Sdk-Date 否 String 使用AK/SK方式认证时必选,请求的发生时间。 X-Project-Id 否 String
查看声音 声音制作任务算法训练完成后,可以查看声音。 操作步骤 登录MetaStudio控制台。 在左侧导航栏中,单击“任务中心”。 选择“声音制作”,确认声音制作任务已训练完成。 在左侧导航栏中,单击“我的创作”。 选择“声音”,找到已生成的声音,单击声音卡片中的头像,即可试听声音效果。
配置对话机器人服务CBS 在对话机器人服务配置问答机器人。MetaStudio创建对话时,如果“第三方应用”需要选择“华为云CBS”时,才需要执行本节操作,详情请参考表1。 操作步骤 登录MetaStudio控制台。 单击界面左上角的图标,在弹出的浮动框中,搜索“对话机器人服务 CBS”,如图1所示。
ng”。可以检查当前PC的浏览器是否支持H265(HEVC)视频解码。 图2 查看浏览器配置 用ffmpeg检查视频的编码是否是H265(HEVC),输入命令:ffmpeg -i 视频文件名。 图3 检查视频是否是hevc编码 需要先安装ffmpeg,安装方法如下。 ffmpeg下载地址:https://github
器。”就可以轻松地控制您的家居设备。 17. 这样的智能生活体验,不仅让您的生活变得更加便利,也让您的家庭更加温馨和谐。 18. 从科技创新的角度来看,家用机器人在许多方面都具有创新性。 19. 它采用了人工智能、机器学习、深度学习和计算机视觉等一些最新的科技成果,并将这些技术应用于解决日常生活中的问题。
我的知识库”页面,如图3所示。 在当前页面可以看到普通文件和问答题库的上传入口。 图3 我的知识库 上传普通文件操作。 单击“普通文件”区域的“上传文件”,进入“文件上传”页面,如图4所示。 图4 文件上传 设置“知识库名称”。 一个知识库可以是一堆文件的集合。 上传文件。 支持上传TXT
场景一:用户开箱即用的智能交互数字人场景。 在MetaStudio控制台完成交互配置,包括LLM或者大模型配置,通过Web页面浏览,无需开发。 图1 智能交互 场景二:用户使用第三方语言模型,自主开发API实现与数字人对话场景。 开发者基于智能交互服务定义的API接口结构,自主开
数字人是一种以数字形式存在于数字空间中的虚拟人物,它具有拟人或真人的外貌、行为特点,并具备一定的智能和情感,可以进行交互和表达。数字人也可以被称之为虚拟形象、数字虚拟人、虚拟数字人等。数字人的核心技术主要包括计算机视觉、计算机图形学、动作捕捉和驱动、图像渲染和人工智能等。 服务型数字人:利用深度神经网络进行图像合成、高度拟真的虚拟人。
对话项目 找到需要修改的对话项目,单击右侧的“编辑”,进入对话编辑界面,如图2所示。 图中标识“1”处为语言修改配置。请根据实际情况切换语言,目前仅支持中文和英文。 图中标识“2”处为声音切换入口。单击图标,弹出如图3所示的对话框,选择需要切换的声音。 请注意,切换后的声音必须与前面切
对话项目 找到需要修改的对话项目,单击右侧的“编辑”,进入对话编辑界面,如图2所示。 图中标识“1”处为语言修改配置。请根据实际情况切换语言,目前仅支持中文和英文。 图中标识“2”处为声音切换入口。单击图标,弹出如图3所示的对话框,选择需要切换的声音。 请注意,切换后的声音必须与前面切
参考真人声音录制,提前录制一个WAV或MP3格式的长音频文件,每句之间需要有2~3秒的停顿。语料推荐使用文案样例(基础版)。 声音授权签署文件。 操作步骤 登录MetaStudio控制台。 单击“声音制作”下方的“开始创建”,进入声音制作页面。 图1 定制声音 在“华为模型”页签,配置声音制作参数。 界面操作详情,如表1所示。
分声音使用场景。 请选择声音性别 声音的性别,用于匹配声音模型的精准度。 如下所示: 男生 女生 原始输入语言 上传语料所使用的语言。 包含如下语言: 中文 英文 须知:当前参数配置仅作为标识,对训练结果没有任何影响。 选择声音标签 声音的标签。作用为选择声音时,快速筛选领域。 包含如下选项: