检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
前提条件 需要申请开通智能交互权限后,才可集成智能交互SDK,并使用Websocket接口驱动数字人。 父主题: 智能交互驱动
名片 PICTURE_2D:照片数字人视频 MODELING_3D:3D照片建模 VDS_3D:3D视觉驱动 TTSA_3D:3D语音驱动 FLEXUS_2D:FLEXUS版本资源 resource_source 是 String 资源来源,可填多个 例如:PURCHASED,ADMIN_ALLOCATED
名片 PICTURE_2D:照片数字人视频 MODELING_3D:3D照片建模 VDS_3D:3D视觉驱动 TTSA_3D:3D语音驱动 FLEXUS_2D:FLEXUS版本资源 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 否
本次变更如下: 新增发布2.0.3版本SDK,相比2.0.2版本,变更点如下所示: 新增接口startChat、stopChat。 新增通知enterSleep。 2024-08-15 本次变更如下: 新增发布2.0.2版本SDK,相比2.0.1版本,变更点如下所示: setConfig新增如下参数:
创建语音驱动表情动画任务 GET /v1/{project_id}/fas-jobs/{job_id} 获取语音驱动表情数据 GET /v1/{project_id}/ttsa-jobs/{job_id} 获取语音驱动数据 3D数字人视频驱动 表29 3D数字人视频驱动接口 接口
introduction_type 否 String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中先上传语音资产。语音驱动需要填写introduction_audio_asset_id参数。
introduction_type 否 String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中先上传语音资产。语音驱动需要填写introduction_audio_asset_id参数。
华为云MetaStudio分身数字人驱动算法 表1 分身数字人驱动算法 算法项 描述 算法名称 华为云MetaStudio分身数字人驱动算法 备案编号 网信算备520111252474601240045号 算法基本原理 分身数字人驱动算法是指通过深度学习生成数字人驱动模型,模型生成后,输入音频来合成数字人视频的一种技术。
声音制作、分身数字人视频制作、分身数字人视频直播、照片数字人视频制作和分身数字人名片制作的费用。 3D数字人费用:包括照片建模、语音驱动和视觉驱动的费用。 资产管理费用:即服务资产管理的费用。 MetaStudio的计费详情,请参考计费说明。 父主题: 产品咨询
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
introduction_type String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动,需要在资产库中先上传语音资产 默认取值: TEXT introduction_text String 自我介绍文本,用于驱动数字人口型。 voice_asset_id
支持新增、复制场景,并为每个场景设置对应的数字人形象、背景、声音等内容。 支持新增、复制段落,或使用txt格式文本导入剧本,平台自动解析输入内容。 直播剧本包含下述设置: 剧本驱动 支持下述三种方式任选其一: 文本驱动:输入文本,通过文本驱动数字人说话。 音频驱动:上传音频,通过音频驱动数字人说话。
按需预付费套餐包 语音驱动 按照输入文本或语音驱动数字人口型、表情等动作的时长进行计费。 计费时优先使用套餐包中的额度,该额度使用完后,转按需付费。 语音驱动的含义:根据输入文本或语音驱动数字人口型、表情等动作。 按需计费 按需预付费套餐包 视觉驱动 按摄像头采集真人动作驱动各路数字人动作的总时长进行计费。
开发者使用,如表1所示。您可以在GitHub仓库查看SDK更新历史、获取安装包以及查看指导文档。 SDK已知安全漏洞及修复版本、规避方案,请单击表1中的SDK对应语言的Github地址进行查看。 表1 服务端SDK 语言 Github地址 参考文档 JAVA huaweicloud-sdk-java-v3
3D数字人 照片建模 左下角展示用户已购买资源的剩余量。单击图标,可以查看剩余量详情的列表数据。 语音驱动 左下角展示用户已购买资源的剩余量。单击图标,可以查看剩余量详情的列表数据。 视觉驱动 左下角展示用户已购买资源的剩余量。 资产管理 资产管理 左下角展示资产存储空间的已使用量,单位:GB。
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
3D数字人语音驱动 创建语音驱动任务 2次/秒 2次/秒 - 获取语音驱动任务列表 20次/秒 10次/秒 - 创建语音驱动表情动画任务 2次/秒 2次/秒 - 获取语音驱动表情数据 20次/秒 10次/秒 - 获取语音驱动数据 20次/秒 10次/秒 - 3D数字人视频驱动 创建视频驱动任务
人说话、走动等杂声。 可使用“分贝仪”应用来测试录音环境的底噪,建议底噪低于0dB。 同一批录音必须使用同一套录制设备和环境。 建议使用对应版本预置的文案样例:文案样例(基础版)、文案样例(进阶版)、文案样例(高品质)。 支持自定义文案,单句文案长短需和样例相当。 不建议临场即兴
智能交互限制 智能交互对硬件设备的最低配置要求,如表1所示。 表1 硬件设备要求 硬盘配置 最低配置 CPU i5及以上版本。 内存 8G以上。 硬盘 128G及以上。 操作系统 Windows或Android系统。 麦克风 需要有麦克风,且要保障1米以内的拾音效果。 扬声器 需要有扬声器。
全局、删除等操作。还支持设置大小,拖动位置。 视频直播画面创作完成后,请根据实际情况,选择下述一种直播剧本驱动方式。 “剧本驱动”包含3种方式: 文本驱动 需要通过文本驱动数字人说话。支持下述2种方式,增加文本内容。 直接在各个场景的段落框中输入文本内容。可单击图标,新增更多的段落。