检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建进阶版语音训练任务 功能介绍 用户创建语音训练进阶版任务,该接口会返回一个obs上传地址,用于上传语音文件。 支持2种方式上传语音文件: 语音文件和文本文件打包成zip上传:语音文件已经切分成100个wav文件,每个语音文件对应一个txt文本文件,所有文件打包成zip文件。语音文件命名规则
创建视频制作剧本 功能介绍 该接口用于创建视频制作剧本。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/digital-human-video-scripts 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String
创建基础版语音训练任务 功能介绍 用户创建语音训练基础版任务,该接口会返回一个obs上传地址,用于上传语音文件。 支持2种方式上传语音文件: 语音文件和文本文件打包成zip上传:语音文件已经切分成20个wav文件,每个语音文件对应一个txt文本文件,所有文件打包成zip文件。语音文件命名规则
创建TTS试听任务 功能介绍 该接口用于创建生成播报内容的语音试听文件任务。 第三方音色试听需要收费,收费标准参考:https://marketplace.huaweicloud.com/product/OFFI919400645308506112#productid=OFFI919400645308506112
修订记录 表1 修订记录 修改时间 修改说明 2024-12-30 本次变更如下: 新增发布3.0.1版本SDK,相比2.2.0版本,变更点如下所示: 新增语音唤醒能力,详见Web语音唤醒。 新增接口initResourcePath,支持设置语音唤醒算法以及资源路径,保证正常使用语音唤醒能力
语音同步合成WebSocket接口 前提条件 本接口目前仅支持“华北-北京四”和“华东-上海一”区域使用,且必须提交工单申请开通后才能使用。 使用本接口前,需要在MetaStudio控制台服务概览页面,开通“声音合成”的按需计费。 详细操作为:单击“声音合成”卡片中的“去开通”,在弹出的
系统资产标签定义 查询资产列表接口支持使用“tags”标签对分身数字人模型进行分类。 “tags”取值及其含义,如表1所示。 表1 tags标签说明 tags取值类型 说明 数字人类型 取值如下: VIRTUAL_AVATARS:分身数字人 VIRTUAL_HUMANS:虚拟数字人
构造请求 本节介绍REST API请求的组成,并以调用IAM服务的管理员创建IAM用户来说明如何调用API,该API获取用户的Token,Token可以用于调用其他API时鉴权。 您还可以通过这个视频教程了解如何构造请求调用API:https://bbs.huaweicloud.com
文本驱动SSML定义 MetaStudio语音驱动采用语音合成标记语言(SSML,Speech Synthesis Markup Language)来控制数字人的行为,包括动作、情绪以及TTS语音合成的多音字、停顿等。 SSML基础定义可参考语音合成标记语言版本 1.0。MetaStudio
智能交互驱动WebSocket接口 终端节点获取方式 智能交互驱动WebSocket接口终端节点的获取方式,如表1所示。 表1 终端节点获取方式 场景 获取方式 未通过WEB SDK调用场景 终端节点地址从接口StartSmartChatJob.xml的响应参数chat_access_address
智能交互支持富媒体吗? 支持的富媒体格式 用户与数字人进行智能交互问答时,支持展示如下格式的富媒体: 图片:JPG、PNG、BMP、GIF、SVG。 视频:MP4。 导入富媒体操作 支持通过问答库导入富媒体。以奇妙问知识库为例,参考新增知识库,补充富媒体知识,示例如表1所示。 如果使用服务提供
状态码 调用数字内容生产线API时,可能返回的状态码如表1 状态码所示。 表1 状态码 返回值 说明 200 OK 请求正常。 201 Created 创建类的请求完全成功。 202 Accepted 已经接受请求,但未处理完成。 204 No Content 请求完全成功,同时HTTP
快速入门 环境要求 Web SDK运行环境要求,如表1所示。 表1 环境要求 环境项 使用限制 开发工具 Microsoft Visual Studio Code、WebStorm或其他Web IDE开发工具。 语言 Javascript或Typescript。 编译环境 建议Node
资源类型 MetaStudio计费中涉及的资源类型,包括商用资源类型、POC测试用需管理员分配的资源类型。 表1 商用资源类型(租户订购) 类别 资源名称 单位 计费模式 资源类型编码 备注 分身数字人 形象制作 个 一次性 hws.resource.type.metastudio.avatarmodeling.number
直播控制RTSA Command命令说明 直播控制RTSA Command命令详细说明,如下所示: 数字人直播状态变化图 RTSA Command定义 数字人直播状态变化图 数字人直播状态变化流程图,如图1所示。 图1 直播状态变化流程图 流程图说明,如下所示: PREPROCESSING
API概览 华为云MetaStudio服务对应的接口列表如下所示,在调用API前,您需要先获取用户Token,Token可以用于调用其他API时鉴权,具体如何调用API请参考应用示例。 数字资产管理 表1 数字资产管理接口 接口 说明 POST /v1/{project_id}/digital-assets
认证鉴权 调用接口有如下两种认证方式,您可以选择其中一种进行认证鉴权。 AK/SK认证:通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求。推荐使用AK/SK认证,其安全性比Token认证要高。 Token认证:通过Token认证调用请求
常见问题 智能交互SDK安装包里为什么有图片资源? SDK里面包含图片资源,是因为智能交互的动效、背景可能需要图片资源才能展示更好的效果。所以智能交互Web SDK为了方便用户集成使用,会同时包含UI相关资源。 speechRecognized和semanticRecognized
肢体驱动数据格式如何定义? MetaStudio肢体驱动数据的前三个为Hips骨骼的Translation信息,按XYZ排列,后接75根骨骼的旋转数据,具体定义如下: 序号 骨骼名称 0 Hips 1 Spine 2 Spine1 3 Spine2 4 Spine3 5 Neck
预置音色ID列表 系统预置自研音色ID列表,如表1所示。 表1 预置音色ID列表 音色名称(中文) 资产ID(华东-上海一) 资产ID(华北-北京四) 音色名称(英文) 资产ID(亚太-新加坡) 云歌 075494c45b5aef529d55cd2a456e6076 0a4b548fd8d2d6998e1fc3fffb29f9bc