检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建智能交互数字人(SDK+API场景) 介绍如何在MetaStudio平台创建智能交互数字人,实现用户和数字人进行交互对话。相应的场景说明,请参考场景说明。 操作步骤 登录MetaStudio控制台,单击“智能交互”,如图1所示。 图1 MetaStudio控制台页面 在智能交互编辑页面,依次设置角色和背景。
手机录制音频 请根据手机类型,执行相应操作: 苹果手机操作 安卓手机 苹果手机操作 苹果手机推荐下载软件“简易录音机(Easy Voice Recorder)”进行录音,如图1所示。 图1 简易录音机 音频录制说明,如表1所示。 表1 音频录制说明 音频录制 说明 采样率 推荐使用48kHz采样率录制音频。
完整性校验 操作说明 对下载的SDK安装包进行完整性校验,判断下载过程是否存在篡改和丢包现象。 操作步骤 参考下载SDK安装包,下载SDK安装包至本地。 打开本地命令运行程序,输入如下命令,在本地生成SDK安装包的SHA256值。 其中,“D:\HwICSUiSdk-1.0.0.
统计时间段内过期的资源数量 功能介绍 统计指定时间段内即将过期的包周期与一次性资源数量。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/tenants/resources-count 表1 路径参数 参数 是否必选 参数类型 描述 project_id
如何将WEBM视频转成MOV格式? 问题描述 视频制作时,如果使用透明背景合成视频,导出时仅支持生成WEBM格式视频。而常用的视频工具剪映、Premiere Pro等,不支持WEBM格式,需要先参考本节转为MOV格式。 解决方法 单击webm2mov,将视频格式转换小工具webm2mov_20240814
API使用限制 使用API调用声音的限制说明 用户使用视频直播或智能交互接口调用音色时,需要先确认能否在MetaStudio控制台的视频直播间编辑界面或智能交互对话设置页面,选到当前音色。 如果界面正常展示且可以选择此音色使用,说明接口可以正常调用此音色,否则接口无法调用。 API流控
启动数字人智能直播任务 功能介绍 该接口用于启动数字人智能直播任务。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/smart-live-rooms/{room_id}/smart-live-jobs 表1 路径参数 参数 是否必选 参数类型
创建科大讯飞应用(AIUI通用语义模型) 在科大讯飞创建AIUI通用语义模型的应用。详细操作如下所示: AIUI通用语义模型应用,不支持直接切换为星火交互认知大模型,不适用。建议参考创建科大讯飞应用(星火交互认知大模型)单独为其创建应用。 创建应用 配置应用 查看应用信息 (可选)开启闲聊功能
查询智能直播剧本详情 功能介绍 该接口用于查询智能直播剧本详情。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/smart-live-rooms/{room_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String
设置TTS租户级自定义读法配置 功能介绍 该接口用于设置TTS租户级自定义读法配置。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/ttsc/vocabulary-configs 表1 路径参数 参数 是否必选 参数类型 描述 project_id
直播带货风格文案 嗨,大家好!欢迎来到我们的直播间!我是今天的主播Lan。 非常高兴能够和各位在今晚的直播间相聚,希望今天在直播间里能和大家一起度过一段非常有意义的时光! 感谢每一位在直播间停留观看的朋友们,感谢大家进来咱们的直播间参与今天的互动、留言。 稍后我们的直播间不但会教
视频直播 用户可以使用分身数字人,创建直播间。 操作前准备 如果系统预置的数字人形象不满足要求,请参考形象制作,提前定制符合要求的分身数字人形象。 推荐使用Chrome浏览器访问MetaStudio控制台。 操作限制 MetaStudio控制台预置形象的有效使用期为3年,在202
表情驱动数据格式如何定义? MetaStudio表情驱动的表情基数据总共52个系数,每个系数的取值范围在0~1之间,表情基系数的顺序性定义如下: 序号 表情名称 0 mouthPucker 1 mouthPressLeft 2 mouthPressRight 3 mouthRollUpper
主入口(HwICSUiSdk) 本节介绍Web SDK的接口详情。 表1 接口 接口 描述 activeInteractionMode 获取当前生效的交互模式(语音问答/文本问答)。 addEventListeners 回调注册。 checkBrowserSupport 检查浏览器是否支持。
查看租户资源用量信息 功能介绍 查询租户一次性和包周期(包年/包月)资源用量信息。 按需套餐包用量本接口无法查询,需要调用CBC接口查询。按需套餐包用量查询和查询资源包信息。 各种资源的计费方式请参考计费说明。 调用方法 请参见如何调用API。 URI GET /v1/{proj
使用Java代码生成文件内容的MD5值 生成文件内容的MD5值对应的Java代码示例,如下所示: import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.IOException;
获取语音驱动数据 功能介绍 该接口用于获取生成的数字人驱动数据,包括语音、表情、动作等。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/ttsa-jobs/{job_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id
系统资产标签定义 查询资产列表接口支持使用“tags”标签对分身数字人模型进行分类。 “tags”取值及其含义,如表1所示。 表1 tags标签说明 tags取值类型 说明 数字人类型 取值如下: VIRTUAL_AVATARS:分身数字人 VIRTUAL_HUMANS:虚拟数字人
智能交互支持富媒体吗? 支持的富媒体格式 用户与数字人进行智能交互问答时,支持展示如下格式的富媒体: 图片:JPG、PNG、BMP、GIF、SVG。 视频:MP4。 导入富媒体操作 支持通过问答库导入富媒体。以奇妙问知识库为例,参考新增知识库,补充富媒体知识,示例如表1所示。 如
直播控制RTSA Command命令说明 直播控制RTSA Command命令详细说明,如下所示: 数字人直播状态变化图 RTSA Command定义 数字人直播状态变化图 数字人直播状态变化流程图,如图1所示。 图1 直播状态变化流程图 流程图说明,如下所示: PREPROCE