检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
真人声音录制 客户录制真人音频,上传至MetaStudio进行AI训练,即可得到和真人音色1:1复刻的声音模型。 声音模型可实现文本转语音,应用于数字人视频制作、直播、交互问答等场景中。不同版本录制规格如下: 基础版:整段录制生成一个WAV或MP3格式音频,总时长3~10分钟,建议5分钟。
获取。 响应消息头中X-Subject-Token的值。 Authorization 否 String 使用AK/SK方式认证时必选,携带的鉴权信息。 X-Sdk-Date 否 String 使用AK/SK方式认证时必选,请求的发生时间。 格式为(YYYYMMDD'T'HHMMSS'Z')。
部分浏览器提交H265训练视频失败如何处理? 问题描述 制作分身形象时,上传的训练视频无法播放,或提交训练任务时,提示分辨率不符合要求,如下图所示。 图1 分身形象制作 问题原因 由于Chrome等浏览器只支持硬解码H265(HEVC)视频,当您的PC硬件不支持解码H265(HE
输入真人视频,经过平台专家安全审核通过,且用户授权使用后,由训练人员选取真人视频中符合要求的视频进行预处理。预处理完成后,进行深度学习训练,生成该真人形象的数字人驱动模型。 推理阶段输入一段音频。 音频输入至数字人驱动模型后,经过模型推理生成数字人形象播报视频。 数字人视频通过审核后返回给用户。
操作。 如果训练生成的数字人形象满足需求,单击右下方的“通过”。在弹出的“确认”对话框中,单击“确认”,数字人形象生成完成。 如果训练生成的数字人形象不满足需求,单击右下方的“驳回”,进入“问题填写”界面。 输入“问题标题”、“问题描述”,并上传相应的附件,如更新后的绿幕视频文件
speechRecognized的流式返回是覆盖式返回。后一条通知中的text字段值包含前一条通知的内容。例如:第一条通知的text值为“你吃”,第二条新识别了“饭了么”,则第二条text值为“你吃饭了么”。 semanticRecognized的流式返回是分段式返回。后一条通知中的text字段值
如何接收并激活声音和分身模型资产? 管理员或其他租户如果推送声音或分身模型资产给当前租户,当前租户需在7天内完成接收和激活操作。如果超过7天未操作,需要管理员或其他用户重新推送资产给当前租户。 声音和分身模型资产的接收、激活操作均相同,下面以分身模型资产的接收、激活操作为例演示。
如何接收并激活声音和分身模型资产? 管理员或其他租户如果推送声音或分身模型资产给当前租户,当前租户需在7天内完成接收和激活操作。如果超过7天未操作,需要管理员或其他用户重新推送资产给当前租户。 声音和分身模型资产的接收、激活操作均相同,下面以分身模型资产的接收、激活操作为例演示。
45000012 图片数量超限 用户上传前景图片数量超过限制,目前是100张 要求用户减少图片数量 400 MSS.45000013 图片格式错误 用户上传的图片格式不支持 要求用户修改图片格式 400 MSS.45000014 图片解析失败 用户上传前景图片中有无法解析的图片 要求用户替换有问题的图片
前提条件 MetaStudio创建对话时,如果“第三方应用”需要选择“科大讯飞AIUI通用语义模型”或“科大讯飞星火交互认知大模型”时,才需要执行创建智能交互数字人(科大讯飞)操作,详情请参考表1。 父主题: 创建智能交互数字人(科大讯飞)
~3秒的停顿。 其中,进阶版和高品质声音制作需要更多语料,训练时长更长,声音效果更佳。 请完善声音信息 输入声音名称。 示例:欢快女声。 请选择声音性别 声音的性别,如下所示: 男生 女生 原始输入语言 声音的原始输入语言,包含如下选项: 中文 英文 选择声音标签 声音的标签,包含如下选项:
数字人定制任务审核通过后,启动算法训练,会在3个工作日内训练完成并生成数字人。 图5 数字人定制任务 等待数字人模型训练完成后,任务状态变更为“算法训练完成”,如图6所示。 图6 数字人定制任务 如果训练生成的数字人形象满足需求,单击右下方的“通过”。在弹出的“确认”对话框中,单击“确认”,数字人形象生成完成。
分身形象制作管理 创建分身数字人模型训练任务 查询分身数字人模型训练任务列表 查询分身数字人模型训练任务详情 删除分身数字人模型训练任务 更新分身数字人模型训练任务 租户执行分身数字人模型训练任务命令
句之间有2~3秒的停顿。音频时长3~10分钟,建议5分钟。 请完善声音信息 输入声音名称,示例:欢快女声。 请选择声音性别 选择声音的性别,示例:女生。 原始输入语言 选择声音的原始输入语言,示例:中文。 选择声音标签 声音的标签。请根据所选文案样例,选择相应的标签,如下所示: 营销:营销宣传风格文案
G和BMP格式的图片上传。 也支持直接拖拽本地图片至图片列表区域,完成上传操作。 关键词搜索框,可输入图片名称进行精准搜索。 示例:科技。 筛选条件 支持通过背景图片来源的维度,筛选展示下方的图片。 图片列表 默认展示全量图片。选中场景,单击图片,可以替换当前场景的背景。 第一张
选择“第三方语言模型”。 应用名称 用户根据实际情况自定义即可。 APPID MetaStudio服务对接第三方语言模型LLM时,需要LLM提供的APPID信息。 APPKEY MetaStudio服务对接第三方语言模型LLM时,需要LLM提供的APPKEY信息。 第三方语言模型地址 M
创建分身数字人模型训练任务 10次/秒 3次/秒 3次/秒 查询分身数字人模型训练任务列表 20次/秒 10次/秒 10次/秒 查询分身数字人模型训练任务详情 20次/秒 10次/秒 10次/秒 删除分身数字人模型训练任务 10次/秒 3次/秒 3次/秒 更新分身数字人模型训练任务 10次/秒
创建智能交互数字人(第三方语言模型) 创建智能交互数字人 父主题: 智能交互
注意事项 加入白名单的租户,仅支持转移声音和分身模型资产给其他租户使用。 操作步骤 登录MetaStudio控制台。 在左侧导航栏中,单击“我的创作”。 选择“资源”页签,如图1所示。 图1 资源页面 选择左侧的“未激活”页签,右侧的“分身模型”页签,筛选展示所有的分身模型资产。 找到需
创建分身数字人模型训练任务 10次/秒 3次/秒 3次/秒 查询分身数字人模型训练任务列表 20次/秒 10次/秒 10次/秒 查询分身数字人模型训练任务详情 20次/秒 10次/秒 10次/秒 删除分身数字人模型训练任务 10次/秒 3次/秒 3次/秒 更新分身数字人模型训练任务 10次/秒