检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
获取在线录音确认结果 功能介绍 获取在线录音确认结果。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/voice-training-manage/user/training-segment 表1 路径参数 参数 是否必选 参数类型 描述 project_id
音频来合成数字人视频的一种技术。 其基本情况包括: 输入数据:真人视频、音频。 算法原理:通过深度学习算法来学习真人视频,生成驱动该真人形象的数字人模型。通过该模型输入音频,合成数字人视频。 输出结果:数字人视频。 应用领域:分身数字人驱动算法可以应用于真人视频自动生成,包括新闻
示例:云笙。 训练视频 从本地上传已录制好,且符合拍摄要求的人像视频。 录制的视频要求4K,时长建议5~6分钟,分辨率≥1080P,宽高比16:9(横屏)或9:16(竖屏),建议优先使用竖屏拍摄。支持MP4、MOV格式的视频。 背景替换 选择“抠除拍摄背景”,制作分身数字人视频时,可以替换背景。
输入分身数字人的角色名称。 示例:云笙。 训练视频 从本地上传已录制好,且符合拍摄要求的真人人像视频,训练生成数字人形象。 录制的视频要求4K,时长建议5~6分钟,分辨率≥1080P,宽高比16:9(横屏)或9:16(竖屏),建议优先使用竖屏拍摄。支持MP4、MOV格式的视频。 训练生成的分身数字人形象与真人形象完全相同。
在下方的视频列表中,可以查看视频详情,包括视频封面、名称、任务ID、生成时间、状态。 支持对视频进行如下操作: 单击“查看”,进入“我的创作 > 视频”页面,可以查看视频详情,如查看视频所示。 单击“下载”,将视频下载至本地查看。下载后的文件为mp4格式。 图1 照片数字人视频生成任务 父主题: 照片数字人
控制台自助服务,一站式快速生成所需内容 用户申请账号并上传相关授权,拍摄训练所需音视频素材,上传进行模型训练,生成自定义形象和声音。选择背景、声音、模特等内容,基于文本或语音智能驱动,实现视频制作、视频直播、智能交互等能力。 华为云盘古数字人大模型,赋能千行百业数字化营销新模式 M
肢体驱动数据格式如何定义? MetaStudio肢体驱动数据的前三个为Hips骨骼的Translation信息,按XYZ排列,后接75根骨骼的旋转数据,具体定义如下: 序号 骨骼名称 0 Hips 1 Spine 2 Spine1 3 Spine2 4 Spine3 5 Neck
照片数字人限制 照片数字人视频制作限制说明,如表1所示。 表1 照片数字人视频制作限制 照片数字人视频制作配置 限制 人像照片 制作照片数字人的人像照片拍摄要求,如下所示: 真人正面照,不支持动漫卡通形象;面部占比50%以上,侧脸俯仰角度不超过15度。 五官清晰无遮挡,目视前方。
风格化照片建模生成的模型文件是什么格式? 风格化照片建模生成Glb格式的模型文件。 父主题: 照片建模
表情驱动数据格式如何定义? MetaStudio表情驱动的表情基数据总共52个系数,每个系数的取值范围在0~1之间,表情基系数的顺序性定义如下: 序号 表情名称 0 mouthPucker 1 mouthPressLeft 2 mouthPressRight 3 mouthRollUpper
BUSINESS_CARD_VIDEO:名片视频。 BUSSINESS_CARD_VIDEO:名片视频(过期) PHOTO_VIDEO:照片数字人视频。 视频翻译资产属性: TO_BE_TRANSLATED_VIDEO: 视频翻译的源视频。可取值Yes。 TRANSLATED_VIDEO: 视频翻译后的视频 3D数字人资产属性:
BUSINESS_CARD_VIDEO:名片视频。 BUSSINESS_CARD_VIDEO:名片视频(过期) PHOTO_VIDEO:照片数字人视频。 视频翻译资产属性: TO_BE_TRANSLATED_VIDEO: 视频翻译的源视频。可取值Yes。 TRANSLATED_VIDEO: 视频翻译后的视频 3D数字人资产属性:
2023-11-29 第四次正式发布 本次变更如下: 新增视频制作剧本管理接口。 2023-09-19 第三次正式发布 本次变更如下: 新增数字人视频制作管理接口。 新增分身数字人视频制作管理接口。 新增数字人名片制作管理接口。 新增智能直播间管理接口。 新增直播任务管理接口。 2023-08-07
选取推理数据预处理视频起始时间。格式:“HH:MM:SS.mmm”。 video_end_time String 选取推理数据预处理视频结束时间。格式:“HH:MM:SS.mmm”。 chat_video_start_time String 选取推理数据预处理智能交互视频起始时间。格式:“HH:MM:SS
基础版声音制作:需整段录制生成一个WAV或MP3格式的音频文件,时长3~10分钟,建议5分钟。 进阶版声音制作:需整段录制生成一个WAV或MP3格式的音频文件,时长10~30分钟,建议15分钟。 高品质声音制作:需整段录制生成一个WAV或MP3格式的音频文件,时长1小时以上,建议1小时。
你想制作出现在正流行的数字人视频吗?那绝对得用万兴播爆! 这个工具不仅能让数字人出镜帮你做视频,还能让你的视频变得更有创意、更吸引人。 如果你需要更高级的视频剪辑功能,那必须得选择万兴喵影。 它提供了强大的编辑工具,让你轻松打造出惊艳的影片,不管是工作还是用来剪辑日常生活的vlog视频都超有用。
声音模型可实现文本转语音,应用于数字人视频制作、直播、交互问答等场景中。不同版本录制规格如下: 基础版:整段录制生成一个WAV或MP3格式音频,总时长3~10分钟,建议5分钟。 进阶版:整段录制生成一个WAV或MP3格式音频,总时长10~30分钟,建议15分钟。 高品质:整段录制生成一个WAV或MP3格式音频,总时长1小时以上,建议1小时。
智能交互支持富媒体吗? 支持的富媒体格式 用户与数字人进行智能交互问答时,支持展示如下格式的富媒体: 图片:JPG、PNG、BMP、GIF、SVG。 视频:MP4。 导入富媒体操作 支持通过问答库导入富媒体。以奇妙问知识库为例,参考新增知识库,补充富媒体知识,示例如表1所示。 如
Flexus分身数字人目前仅支持视频制作,不支持视频直播和智能交互。 视频制作限制 Flexus数字人采用实景拍摄,视频制作时不支持切换背景。 Flexus分身数字人左上角会有标识。未带有标识的数字人均为标准版形象。 需注意Flexus视频制作和标准版视频制作分开计费,从各自的套餐包中扣除费用。
创建声音制作任务(第三方模型) MetaStudio已经预置了各种类型的声音,可以在视频制作界面或视频直播界面查看。如果预置声音仍无法满足用户需求,可使用第三方模型自定义生成声音。 支持第三方模型“出门问问”:支持19种输入语言(中文、英文、粤语、德语、法语、土耳其语、菲律宾语、