检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
表情驱动数据格式如何定义? MetaStudio表情驱动的表情基数据总共52个系数,每个系数的取值范围在0~1之间,表情基系数的顺序性定义如下: 序号 表情名称 0 mouthPucker 1 mouthPressLeft 2 mouthPressRight 3 mouthRollUpper
文本驱动SSML定义 MetaStudio语音驱动采用语音合成标记语言(SSML,Speech Synthesis Markup Language)来控制数字人的行为,包括动作、情绪以及TTS语音合成的多音字、停顿等。 SSML基础定义可参考语音合成标记语言版本 1.0。Meta
肢体驱动数据格式如何定义? MetaStudio肢体驱动数据的前三个为Hips骨骼的Translation信息,按XYZ排列,后接75根骨骼的旋转数据,具体定义如下: 序号 骨骼名称 0 Hips 1 Spine 2 Spine1 3 Spine2 4 Spine3 5 Neck
资源类型 MetaStudio计费中涉及的资源类型,包括商用资源类型、POC测试用需管理员分配的资源类型。 表1 商用资源类型(租户订购) 类别 资源名称 单位 计费模式 资源类型编码 备注 分身数字人 形象制作 个 一次性 hws.resource.type.metastudio
第三方声音支持的语言类型 第三方声音支持的语言类型,如表1所示。 表1 语言类型 语言类型 语种 出门问问(方言) 支持7种语言:东北话、广西话、湖北话、陕西话、四川话、粤语、港台。 出门问问(预置声音) 支持19种语言:中文、英文、德语、法语、韩语、葡萄牙语、日语、西班牙语、意
删除TTS租户级自定义读法配置 功能介绍 该接口用于删除TTS租户级自定义读法配置。 调用方法 请参见如何调用API。 URI DELETE /v1/{project_id}/ttsc/vocabulary-configs 表1 路径参数 参数 是否必选 参数类型 描述 project_id
第三方用户ID。不允许输入中文。 表3 请求Body参数 参数 是否必选 参数类型 描述 type 是 String 支持配置的自定义读法类型。当前读法类型会映射为SSML标签,详见文本驱动SSML定义。 包含如下选项: CHINESE_G2P:拼音 PHONETIC_SYMBOL:音标
响应Body参数 参数 参数类型 描述 count Integer 总记录数。 取值范围: 0-2147483647 data Array of VocabularyConfig objects 自定义读法。 表5 VocabularyConfig 参数 参数类型 描述 id String
第三方用户ID。不允许输入中文。 表3 请求Body参数 参数 是否必选 参数类型 描述 type 是 String 支持配置的自定义读法类型。当前读法类型会映射为SSML标签,详见文本驱动SSML定义。 包含如下选项: CHINESE_G2P:拼音 PHONETIC_SYMBOL:音标
系统资产标签定义 查询资产列表接口支持使用“tags”标签对分身数字人模型进行分类。 “tags”取值及其含义,如表1所示。 表1 tags标签说明 tags取值类型 说明 数字人类型 取值如下: VIRTUAL_AVATARS:分身数字人 VIRTUAL_HUMANS:虚拟数字人
如何自定义域名方式访问智能交互页面? 用户与数字人进行智能交互的URL页面,默认为IP地址形式。如果用户希望通过域名访问,目前MetaStudio服务提供了A记录的域名,但是这些A记录域名不能在浏览器直接访问,需要用户自己申请备案一个域名,并通过CNAME方式解析到如下域名上。
服务支持的字体 MetaStudio制作视频添加的字幕,视频画面中的文本信息都涉及字体。目前MetaStudio服务支持的字体及语言类型如表1所示。 表1 服务支持的字体说明 字体名称 支持的语言类型 Adelle_Sans_Global Adelle_Sans_Global_Bold
创建声音制作任务(自研模型) MetaStudio已经预置了各种类型的声音,可以在视频制作界面或视频直播界面查看。如果预置声音仍无法满足用户需求,可使用自研模型自定义生成声音。 操作限制 MetaStudio不支持个人用户定制声音,仅支持企业用户。 定制声音时,从平台下载的授权书
创建声音制作任务(第三方模型) MetaStudio已经预置了各种类型的声音,可以在视频制作界面或视频直播界面查看。如果预置声音仍无法满足用户需求,可使用第三方模型“出门问问”自定义生成声音。第三方模型“出门问问”的详细说明,如下所示: 输入的语言不受限制。默认支持19种输入语言
变更交互任务信息的事件。交互任务状态发生变化时,会通知使用方。如果交互任务就绪,jobInfo中的jobId为进行中的任务ID,否则jobId为空字符串。 【回调参数】 jobInfo:JobInfo类型。字段定义如表3所示。 表3 JobInfo 参数 类型 描述 jobId string 任务ID。 websocketAddr
在控制台查询音色ID(方式一):仅支持查询自定义音色ID。 在控制台查询音色ID(方式二):支持查询全量音色ID。 使用接口查询音色ID:支持查询全量音色ID。 在控制台查询音色ID(方式一) 当前方式仅支持查询用户自定义音色ID,不支持查询系统预置音色ID。 登录MetaStudio控制台。 在左侧导航栏中,选择“我的创作”。
该接口用于在资产库中添加上传新的媒体资产。可上传的资产类型包括:分身数字人模型、背景图片、素材图片、素材视频、PPT等。 资产类型是IMAGE时,通过system_properties来区分背景图片(BACKGROUND_IMG)、素材图片(MATERIAL_IMG)。 资产类型是VIDE
令。其参数结构定义为“CleanUpInsertCommand”。 PlayTextInfo 表1 PlayTextInfo 参数 是否必选 参数类型 描述 text_config 否 表2 object 话术配置。 play_type 否 String 播放类型。 取值如下所示:
如需使用“出门问问声音制作”方式自定义声音,并用于视频制作,需要参考下述内容进行操作。出门问问自定义声音暂不支持用于智能交互和视频直播。其支持的语言类型,如第三方声音支持的语言类型所示。 购买出门问问小语种克隆套餐包:如果用户需要使用“出门问问声音制作”方式自定义生成声音,需要在云商店购买出门问问小语种克隆套餐包。
MetaStudio智能交互服务支持开发者自定义数字人大脑(即第三方LLM)。当用户与数字人对话时,将触发调用该接口,由该接口返回问题对应的答案文本内容。 签名计算方法 第三方LLM自定义接口,使用HMACSHA256签名模式,需要在URL中追加参数“secret”和“time_stamp”。