正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
万兴播爆针对文案也提供了三个AI功能,分别是智能脚本、AI文本翻译,甚至是AI视频翻译。 其中AI视频翻译是最新的功能,支持多种语言的翻译 像咱们国内的跨境卖家,就完全可以把国内已经录制好的视频,直接上传,就可以把视频翻译为多国籍的版本,口音也可以选择。 文案可以自己撰写,写好了可
声音制作任务管理 创建基础版语音训练任务 创建进阶版语音训练任务 创建高级版语音训练任务 查询语音训练任务列表 提交语音训练任务 查询语音训练任务详情 删除语音训练任务 查询任务操作日志 获取语音文件上传地址 获取语音训练任务审核结果 确认在线录音结果 获取在线录音确认结果
确认在线录音结果 功能介绍 确认在线录音结果。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/voice-training-manage/user/training-segment 表1 路径参数 参数 是否必选 参数类型 描述 project_id
选择性别“男生”或“女生”。 声音 提供下述种方式,生成名片预览语音片段。 播报内容生成后,单击右侧的“试听”,可以试听播报效果。 语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生
控制台自助服务,一站式快速生成所需内容 用户申请账号并上传相关授权,拍摄训练所需音视频素材,上传进行模型训练,生成自定义形象和声音。选择背景、声音、模特等内容,基于文本或语音智能驱动,实现视频制作、视频直播、智能交互等能力。 华为云盘古数字人大模型,赋能千行百业数字化营销新模式 MetaStudio服务依托华为
获取在线录音确认结果 功能介绍 获取在线录音确认结果。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/voice-training-manage/user/training-segment 表1 路径参数 参数 是否必选 参数类型 描述 project_id
选择“分身名片”页签,如图1所示。 在“分身名片”页面,可以看到已生成的名片列表,以卡片形式排列展示。 支持对名片进行如下操作: 单击,查看分身数字人的语音表达形态。 单击“下载”,将名片下载至本地查看。下载后的文件为mp4格式。 单击,在弹出的下拉框中,可查看名片详情、重命名或删除名片。 图1
分身数字人费用:包括分身数字人形象制作、声音制作、分身数字人视频制作、分身数字人视频直播、照片数字人视频制作和分身数字人名片制作的费用。 3D数字人费用:包括照片建模、语音驱动和视觉驱动的费用。 资产管理费用:即服务资产管理的费用。 MetaStudio的计费详情,请参考计费说明。 父主题: 产品咨询
2次/秒 2次/秒 - 3D数字人语音驱动 创建语音驱动任务 2次/秒 2次/秒 - 获取语音驱动任务列表 20次/秒 10次/秒 - 创建语音驱动表情动画任务 2次/秒 2次/秒 - 获取语音驱动表情数据 20次/秒 10次/秒 - 获取语音驱动数据 20次/秒 10次/秒 -
2次/秒 2次/秒 - 3D数字人语音驱动 创建语音驱动任务 2次/秒 2次/秒 - 获取语音驱动任务列表 20次/秒 10次/秒 - 创建语音驱动表情动画任务 2次/秒 2次/秒 - 获取语音驱动表情数据 20次/秒 10次/秒 - 获取语音驱动数据 20次/秒 10次/秒 -
播报内容生成后,单击右侧的“试听”,可以试听播报效果。 语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。 文本驱动:通过输入文本,
收音 收音说明 MetaStudio会使用视频中的语音,对应您口型的变化,来训练口型驱动效果,训练结果还会经过专家的技术审核。 所以在收音这方面,建议如下: 保证视频音画同步。 确保环境安静无噪声,模特人声清晰,无其他人声干扰,尽量减少视频底噪。 建议使用小蜜蜂或其他专业麦克风搭
真人声音录制 客户录制真人音频,上传至MetaStudio进行AI训练,即可得到和真人音色1:1复刻的声音模型。 声音模型可实现文本转语音,应用于数字人视频制作、直播、交互问答等场景中。不同版本录制规格如下: 基础版:20句语料,需整段录制,生成的音频总时长为3~10分钟,建议5分钟。
数字人语音的一种技术。 其基本情况包括: 输入数据:真人语音音频 。 算法原理:通过深度学习算法,学习真人语音音频生成数字人声音模型,通过该模型,输入文本生成数字人语音。 输出结果:接近真人音色的数字人语音。 应用领域:分身数字人声音制作算法可以应用于数字人视频合成时的语音配音。
每个单场景,如果通过“文本驱动”方式生成语音时,所有段落汇总的文字数量需大于200字。 每个单场景,如果通过“音频驱动”方式生成语音时,每个音频时长需大于1分钟。 文本驱动配置 通过“文本驱动”方式生成语音时,对应的文本要求,如下所示: 每个段落的文本字符数量需小于2000,如果包含语音合成标记语言SSML标签时,需小于3000。
er/training-segment 确认在线录音结果 GET /v1/{project_id}/voice-training-manage/user/training-segment 获取在线录音确认结果 语音合成管理 表25 语音合成管理接口 接口 说明 POST /v1/
BUSSINESS_CARD_VIDEO:名片视频(过期) PHOTO_VIDEO:照片数字人视频。 视频翻译资产属性: TO_BE_TRANSLATED_VIDEO: 视频翻译的源视频。可取值Yes。 TRANSLATED_VIDEO: 视频翻译后的视频 3D数字人资产属性: STYLE_ID:风格Id。 DH_ID:数字人ID(尚未启用)。
每个单场景,如果通过“文本驱动”方式生成语音时,所有段落汇总的文字数量需大于200字。 每个单场景,如果通过“音频驱动”方式生成语音时,每个音频时长需大于1分钟。 文本驱动配置 通过“文本驱动”方式生成语音时,对应的文本要求,如下所示: 每个段落的文本字符数量需小于2000,如果包含语音合成标记语言SSML标签时,需小于3000。
BUSSINESS_CARD_VIDEO:名片视频(过期) PHOTO_VIDEO:照片数字人视频。 视频翻译资产属性: TO_BE_TRANSLATED_VIDEO: 视频翻译的源视频。可取值Yes。 TRANSLATED_VIDEO: 视频翻译后的视频 3D数字人资产属性: STYLE_ID:风格Id。 DH_ID:数字人ID(尚未启用)。
3D数字人 3D数字人风格管理 3D数字人风格化照片建模 3D数字人语音驱动 3D数字人视频驱动