检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建高级版语音训练任务 功能介绍 用户创建语音训练高级版任务,该接口会返回一个obs上传地址,用于上传语音文件。 语音文件为一段WAV格式的长音频文件,仅支持将语音文件打包成zip压缩格式上传。 文件上传后,调用“提交语音训练任务”接口,启动审核和训练。
声音录制指导文档下载 如需查看真人声音录制的的PDF文件,请单击声音制作录制指导下载文件。 父主题: 声音制作
创建技能 技能是一组智能问答对的组合,详细操作如下所示: 在MetaStudio控制台创建技能并导出技能文件:先创建技能,再添加所有问答对后,导出技能文件。 在科大讯飞创建同名技能并导入技能文件:将MetaStudio导出的技能文件导入至科大讯飞的同名技能中。
下载后的文件为mp4格式。 单击,在弹出的下拉框中,可查看名片详情、重命名或删除名片。 图1 分身数字人名片 父主题: 数字人名片制作
音频命名 所有语料录制生成一个长音频WAV或MP3文件,命名示例:Voice.wav。 音频导出 操作如下所示: 打开超级录音机软件,进入音频文件列表页面。 通过长按音频文件的方式,选中所有文件,单击分享图标,可选择隔空投送或其他第三方应用导出音频文件至PC中。
目前仅支持上传PNG、JPG、JPEG和BMP格式的图片文件,不支持GIF等动态图片格式。 父主题: 视频制作
录制提交 表3 录音内容提交规范 声音类型 音频说明 音频命名 基础版 需整段录制所有语料生成一个长音频WAV或MP3格式文件,每句之间有2~3秒的停顿。WAV或MP3格式文件可直接上传MetaStudio控制台,无需压缩,无需提供语料txt文件。
表1 音频文件 版本 类别 原音文件 合成音文件 版本差异 适用场景 基础版声音制作 女声 基础版媒体1.wav 基础版媒体2.wav 支持手机录制20条语料音频(5分钟),1-3天制作,快速获得类真人音色,mos分3.8。
声音和数字人模型文件不支持导出和下载,且声音和数字人模型不是通用模型,不与第三方服务兼容。用户在MetaStudio制作的模型,仅支持在本服务内使用。 父主题: 声音和形象制作
界面提供录音指导,需要按照指导,录制生成一个符合时长要求的基础版、进阶版或高品质音频文件。WAV或MP3格式音频文件支持直接上传,无需压缩,无需携带文案txt文件。 如果未使用服务预置文案,声音标签仅作为标签,来区分声音使用场景。
图片像素不是文件大小,如果用户仅修改图片大小,控制台还会继续提示像素超标。 上传图片的长宽需要至少满足下述一个条件: (width <= 2160) & (height <= 3840) (width <= 3840) &(height <= 2160) 父主题: 视频制作
创建TTS试听任务 功能介绍 该接口用于创建生成播报内容的语音试听文件任务。
同时需要删除训练任务相关的训练视频、身份证照片、授权文件、模型资产等。
失败 读取token失败 请联系技术支持 400 MSS.10001018 文件上传失败 文件上传失败 请联系技术支持 400 MSS.10001019 图片审核不通过 图片审核不通过 使用合规图片 400 MSS.10001020 SFSCache文件处理异常 SFSCache文件处理异常
界面默认展示两列文件,单击图标后,缩小展示为1列文件。单击图标,可恢复为2列展示。 关键词搜索框,可输入文件名称进行精准搜索。 示例:销售指导书。 文件列表 默认展示全量文件。 查看文件 将鼠标放在文件上方,文件右上角展示图标。
获取TTS异步任务 功能介绍 该接口用于获取TTS音频文件下载链接。 调用方法 请参见如何调用API。
PPT转视频的操作如下所示: 本地打开PPT文件,在左上方的导航栏中,选择“文件 > 导出”。 选择创建视频,可以设置每张幻灯片放映的时间等参数。 单击“创建视频”,在弹出的对话框中,选择本地存放目录,并设置视频名称。 单击“保存”,生成视频文件。
下载后的文件为mp4格式。 图1 名片生成任务 父主题: 数字人名片制作
扫描文件生成pdf文件,或拍摄文件生成jpg、jpeg、png格式的图片。 单击“上传授权书”,从本地选择pdf、jpg、jpeg或png格式的授权书上传。 授权书内容,可参考授权书。 单击“提交制作”。数据上传完成后,界面提示“制作任务提交成功!”,如图3所示。
下载后的文件为mp4格式。 图1 照片数字人视频生成任务 父主题: 照片数字人