检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
9d9af9e0f743"/>,非常高兴给大家介绍MetaStudio。</speak> insert-action id通过查询资产列表接口获取,查询时asset_type=ANIMATION 多音字标签:<phoneme ph="拼音">汉字</phoneme>,南京<phoneme
创建智能交互数字人 介绍如何在MetaStudio平台创建智能交互数字人,实现用户和数字人交互对话。相应的场景说明,请参考场景说明。 前提条件 已在奇妙问新增配置完成角色。 操作步骤 登录MetaStudio控制台,单击“智能交互”。 在智能交互编辑页面,依次设置角色和背景。 查看界面右侧的“互动问答”页签,,如图1所示。
交训练任务。 查看声音训练任务。 在“任务中心 > 声音制作”页面,查看生成的Flexus声音制作任务。 “服务类型”为“Flexus版”,声音名称为设置的“数字人名称”。Flexus声音制作任务耗时较短。 单击任务所在行的“查看详情”,进入“任务详情”页面。 查看分身数字人定制
创建智能交互数字人 介绍如何在MetaStudio平台创建智能交互数字人,实现用户和数字人交互对话。相应的场景说明,请参考场景说明。 前提条件 已在AIUI开放平台新增配置完成应用。 操作步骤 登录MetaStudio控制台,单击“智能交互”。 在智能交互编辑页面,依次设置角色和背景。 查看界面右侧的“互动问答”页签,如图1所示。
获取语音驱动任务列表 功能介绍 该接口用于查询驱动数字人表情、动作及语音的任务列表。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/ttsa-jobs 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参考获取项目ID。
创建智能交互数字人 介绍如何在MetaStudio平台创建智能交互数字人,实现用户和数字人对话。相应的场景说明,请参考场景说明。 操作步骤 登录MetaStudio控制台,单击“智能交互”。 在智能交互编辑页面,依次设置角色和背景。 查看界面右侧的“互动问答”页签,如图1所示。 参数配置说明,如表1所示。
包括如下内容: 贴图:从本地选择图片。 视频:从本地选择视频文件。 文本:手工输入文本内容。 音频:从本地选择音频文件。 单击“创建”,界面提示“创建成功”。 在“商品管理”页面,新增一行商品。 支持对商品执行如下操作: 单击商品所在行的“查看”,进入商品详情界面,支持单击“编辑”,修改商品信息。
数字人支持TTS和ASR吗? 已支持TTS(文本转语音),详见创建TTS异步任务。MetaStudio不提供ASR(语音转文本),用户如有ASR需求,可以查看语音交互服务或其他ASR服务。 父主题: 数字人
选择“基础版声音制作”,音频格式为WAV或MP3文件。需整段录制,每句之间有2~3秒的停顿。音频时长3~10分钟,建议5分钟。 请完善声音信息 输入声音名称,示例:欢快女声。 请制作声音 使用“语料上传”的方式,直接上传一个已录制好的长音频WAV或MP3文件,无需压缩,无需携带文案txt文件。 请选择声音性别
创建语音驱动表情动画任务 功能介绍 该接口用于创建驱动数字人表情的任务。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/ttsa/fas 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 租户项目ID 请求参数
音色资产ID,可以从资产库中查询。 introduction_audio_asset_id 否 String 自我介绍语音资产ID,用于驱动数字人口型。 说明: 介绍语音需要作为asset_type=AUDIO资产先上传至资产库。 使用时从资产库中查询。 video_asset_name
音色资产ID,可以从资产库中查询。 introduction_audio_asset_id 否 String 自我介绍语音资产ID,用于驱动数字人口型。 说明: 介绍语音需要作为asset_type=AUDIO资产先上传至资产库。 使用时从资产库中查询。 video_asset_name
控制数字人直播过程 功能介绍 该接口用于控制数字人直播过程。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/smart-live-rooms/{room_id}/smart-live-jobs/{job_id}/command 表1 路径参数
Query参数 参数 是否必选 参数类型 描述 offset 否 Integer 查询偏移量,若超过最大数量,则返回最后一页 取值范围: 0-2147483647 默认取值: 0 limit 否 Integer 查询数量 取值范围: 1-1000 默认取值: 10 请求参数 表3 请求Header参数
obs上传地址,用于上传语音文件。 支持2种方式上传语音文件: 语音文件和文本文件打包成zip上传:语音文件已经切分成100个wav文件,每个语音文件对应一个txt文本文件,所有文件打包成zip文件。语音文件命名规则:0.wav~99.wav;文本文件命名规则:0.txt~99.txt。
传语音文件。 支持2种方式上传语音文件: 语音文件和文本文件打包成zip上传:语音文件已经切分成20个wav文件,每个语音文件对应一个txt文本文件,所有文件打包成zip文件。语音文件命名规则:0.wav~19.wav;文本文件命名规则:0.txt~19.txt。 语音文件和文本
形象授权 上传形象授权书。 操作如下所示: 单击“授权书模板”,将授权书模板下载本地。 打印授权书,由身份证本人完成签署操作。 扫描文件生成pdf文件,或拍摄文件生成jpg、png格式的图片。 单击“点击上传授权书”,从本地选择pdf、jpg或png格式的授权书上传。 单击“提交制作”。
上报直播间事件 功能介绍 该接口用于上报直播间事件。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/smart-live-rooms/{room_id}/smart-live-jobs/{job_id}/live-event-report 表1
PPT 操作限制,如下所示: PPT文件不支持超过50页。 如果PPT的字体不支持在MetaStudio控制台展示,可能会导致视频制作时展示的PPT页面排版与实际排版不一致,建议将PPT转存为PDF文件后再导入。 操作详情请参考PPT如何转为PDF文件?。 如果PPT中有动画、动效,
1次/秒 查询资产概要 20次/秒 10次/秒 10次/秒 查询资产复制信息 20次/秒 10次/秒 10次/秒 复制资产 4次/秒 3次/秒 3次/秒 文件管理 创建文件并获取上传URL 10次/秒 5次/秒 5次/秒 删除文件 10次/秒 5次/秒 5次/秒 确认文件已上传 10次/秒