检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建高级版语音训练任务 功能介绍 用户创建语音训练高级版任务,该接口会返回一个obs上传地址,用于上传语音文件。 语音文件为一段WAV格式的长音频文件,仅支持将语音文件打包成zip压缩格式上传。 文件上传后,调用“提交语音训练任务”接口,启动审核和训练。 调用方法 请参见如何调用API。 URI
资产只要没有被彻底删除,均需要进行租户的资产存储空间计费。即使资产处于冻结状态,或在回收站时,也需参与计费。 资产创建失败说明 如下创建资产时的异常场景,会导致资产被自动置为失败状态。 超过24小时未上传资产主文件。 资产标题、描述和主文件内容审核失败。 服务校验资产主文件与用户创建的文件信息不匹配。 资产冻结说明
技能是一组智能问答对的组合,详细操作如下所示: 在MetaStudio控制台创建技能并导出技能文件:先创建技能,再添加所有问答对后,导出技能文件。 在科大讯飞创建同名技能并导入技能文件:将MetaStudio导出的技能文件导入至科大讯飞的同名技能中。 创建智能交互数字人中的“第三方应用”
从下拉框中选择“批量删除”,勾选所有需要删除的文件。单击界面右下角的“删除”,删除选中的所有文件。 文件上传成功后的操作如下所示: 在PPT页签的文件列表区域,单击上传成功的文件,弹出如图4所示的对话框。 图4 插入页面 勾选需要插入的页面或直接全选所有界面,单击“复制当前场景”或
贴图支持动态图片吗? 不支持。目前仅支持上传PNG、JPG、JPEG和BMP格式的图片文件,不支持GIF等动态图片格式。 父主题: 视频制作
峰值RMS在-9左右,无削波。 停顿断句 在标点或适当断句处自然停顿,需轻声换气。 当录制一个长音频文件时,每句之间需要有2~3秒的停顿。 重音位置 重音位置要合理,避免错误的重音。 阅读发音 按顺序读,确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题,需重新录制。
String 字幕文件下载链接。 subtitle_file_upload_url String 字幕文件上传链接。 subtitle_file_state String 字幕文件生成状态。 GENERATING:字幕文件生成中。 GENERATE_SUCCEED:字幕文件生成成功。
选择“基础版声音制作”,音频格式为WAV或MP3文件。需整段录制,每句之间有2~3秒的停顿。音频时长3~10分钟,建议5分钟。 请完善声音信息 输入声音名称,示例:欢快女声。 请制作声音 使用“语料上传”的方式,直接上传一个已录制好的长音频WAV或MP3文件,无需压缩,无需携带文案txt文件。 请选择声音性别
String 字幕文件下载链接。 subtitle_file_upload_url String 字幕文件上传链接。 subtitle_file_state String 字幕文件生成状态。 GENERATING:字幕文件生成中。 GENERATE_SUCCEED:字幕文件生成成功。
客户声音制作案例 单击声音样例.zip,下载如表1所示的音频文件。 mos分是从音色相似度、情感表达效果和声音音质方面,进行整体效果综合评分的结果。 表1 音频文件 版本 类别 原音文件 合成音文件 版本差异 适用场景 基础版声音制作 女声 基础版媒体1.wav 基础版媒体2.wav
声音和形象模型支持在其他平台使用吗? 用户在MetaStudio制作的模型,仅支持在本服务内使用。 声音和数字人模型文件不支持导出和下载,且声音和数字人模型不是通用模型,不与第三方服务兼容。 父主题: 声音和形象制作
更新唤醒模型 客户获取到MetaStudio定制的唤醒模型后,需替换原hwICSUiSdk文件modelData.js,之后将wasmData.js与modelData.js放置到项目的静态资源文件夹下面或者其他可以通过http请求访问到的位置,之后再调用初始化唤醒资源路径接口init
String 字幕文件下载链接。 subtitle_file_upload_url 否 String 字幕文件上传链接。 subtitle_file_state 否 String 字幕文件生成状态。 GENERATING:字幕文件生成中。 GENERATE_SUCCEED:字幕文件生成成功。
Language)标记语言。 需要使用的标签,如下所示: <speak>:此标签为所有文本的根节点。一切需要调用SSML标签的文本,都要包含在<speak> </speak>标记对中。 <emotion>:情感标签,对指定的一或多句话生效。标签开始在句子起始位置,标签结束在句子结尾。用法为:<emotion
参数解释: 字体。当前支持的字体请参考服务支持的字体 约束限制: 不涉及。 取值范围: 字符长度0-64位 默认取值: HarmonyOS_Sans_SC_Black font_size 否 Integer 参数解释: 字体大小。接口的取值范围为0-120,实际业务使用的取值范围要求为24-120,请以业务实际使用要求为准。
支持通过背景、风格和布局的维度,筛选展示下方的图片。 图片列表 默认展示全量图片。选中场景,单击图片,可以替换当前场景的背景。 将鼠标放在图片上方,图片右上角展示图标。单击图标,可以将当前图片作为背景替换至所有场景。 贴图 贴图界面详情,如图3所示。 上传后的贴图不支持修改。如需修
String 字幕文件下载链接。 subtitle_file_upload_url 否 String 字幕文件上传链接。 subtitle_file_state 否 String 字幕文件生成状态。 GENERATING:字幕文件生成中。 GENERATE_SUCCEED:字幕文件生成成功。
则与匹配的关键词语音内容时长保持一致。 取值范围: 0-3600 默认取值: 0 表26 SmartVideoLayerConfig 参数 参数类型 描述 video_url String 视频文件的URL。 video_cover_url String 视频封面文件的URL。 display_duration
String 字幕文件下载链接。 subtitle_file_upload_url String 字幕文件上传链接。 subtitle_file_state String 字幕文件生成状态。 GENERATING:字幕文件生成中。 GENERATE_SUCCEED:字幕文件生成成功。
字,单段落不多于2000字的要求。 段落1.1:大家好,今天欢迎来到会议室,我们今天讨论的主题是:如何更好的学习和工作。 段落1.2:我们每个人都有自己的学习和工作,难免会遇到一些问题。当我们遇到问题的时候,应该如何解决的呢? 图2 文本驱动 文本内容的操作说明如表1所示。 不同