检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
3D数字人语音驱动 创建语音驱动任务 2次/秒 2次/秒 - 获取语音驱动任务列表 20次/秒 10次/秒 - 创建语音驱动表情动画任务 2次/秒 2次/秒 - 获取语音驱动表情数据 20次/秒 10次/秒 - 获取语音驱动数据 20次/秒 10次/秒 - 3D数字人视频驱动 创建视频驱动任务
当前未启用 3D数字人 照片建模 个 modeling_count - 语音驱动 分钟 ttsa_content_time - 视觉驱动 分钟 visual_motion_capture_time - 视觉驱动 路 periodic_concurrency_number - 声音合成
按需预付费套餐包 语音驱动 按照输入文本或语音驱动数字人口型、表情等动作的时长进行计费。 计费时优先使用套餐包中的额度,该额度使用完后,转按需付费。 语音驱动的含义:根据输入文本或语音驱动数字人口型、表情等动作。 按需计费 按需预付费套餐包 视觉驱动 按摄像头采集真人动作驱动各路数字人动作的总时长进行计费。
3D数字人语音驱动 创建语音驱动任务 2次/秒 2次/秒 - 获取语音驱动任务列表 20次/秒 10次/秒 - 创建语音驱动表情动画任务 2次/秒 2次/秒 - 获取语音驱动表情数据 20次/秒 10次/秒 - 获取语音驱动数据 20次/秒 10次/秒 - 3D数字人视频驱动 创建视频驱动任务
事件通知(EventMap) 本节介绍Web SDK的EventMap事件。 表1 通知列表 接口 描述 三方驱动场景(是否支持) 非三方驱动场景(是否支持) error 错误事件。 √ √ enterActive 数字人激活事件。 × √ enterSleep 数字人自动休眠事件。
introduction_type 否 String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中先上传语音资产。语音驱动需要填写introduction_audio_asset_id参数。
创建语音驱动表情动画任务 GET /v1/{project_id}/fas-jobs/{job_id} 获取语音驱动表情数据 GET /v1/{project_id}/ttsa-jobs/{job_id} 获取语音驱动数据 3D数字人视频驱动 表31 3D数字人视频驱动接口 接口
introduction_type 否 String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中先上传语音资产。语音驱动需要填写introduction_audio_asset_id参数。
查看界面右侧的“互动问答”页签,如图1所示。 参数配置说明,如表1所示。 图1 创建应用 表1 创建应用 参数 说明 第三方应用 从下拉框中选择“第三方驱动”。 应用名称 输入自定义的应用名称。 “互动问答”页签配置完成后,还需执行下述操作,对应的操作流程图,如图2所示。 下载并集成智能交互Web
47010114 第三方文本驱动失败,文本长度超过最大值 第三方文本驱动失败,文本长度超过最大值 第三方文本驱动请携带正确长度的文本数据 400 MSS.47010115 第三方文本驱动失败,seq参数小于最小值 第三方文本驱动失败,seq参数小于最小值 第三方文本驱动请携带正确的seq参数信息
数字人主动播报与文本问答的区别是什么? 智能交互同时支持数字人主动播报和文本问答两种能力,两者都是通过文字驱动数字人讲话。 区别如下所示: 主动播报:主动播报是直接将sendDrivenText接口传入的文本作为数字人播报内容,来驱动数字人讲话。 文本问答:文本问答是使用sendTextQuestion接口输
introduction_type String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动,需要在资产库中先上传语音资产 默认取值: TEXT introduction_text String 自我介绍文本,用于驱动数字人口型。 voice_asset_id
参数类型 描述 script_type String 参数解释: 脚本类型,即视频制作的驱动方式 约束限制: 不涉及 取值范围 TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动 默认取值: TEXT text_config TextConfig object 讲解词配置。
一个视频制作剧本,仅支持使用一个数字人模型和一个音色模型。 文本驱动 每个单场景输入文字的数量不超过1万字。 所有场景输入文字的数量不超过10万字。 每个单场景如果包含语音合成标记语言SSML标签,文字数量需小于128K。 音频驱动 每个单场景上传音频的大小不超过100M。 视频格式 插
参数类型 描述 script_type 否 String 参数解释: 脚本类型,即视频制作的驱动方式 约束限制: 不涉及 取值范围 TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动 默认取值: TEXT text_config 否 TextConfig object 讲解词配置。
参数类型 描述 script_type String 参数解释: 脚本类型,即视频制作的驱动方式 约束限制: 不涉及 取值范围 TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动 默认取值: TEXT text_config TextConfig object 讲解词配置。
BUSINESS_CARD_2D:分身数字人名片 PICTURE_2D:照片数字人视频 MODELING_3D:3D照片建模 VDS_3D:3D视觉驱动 TTSA_3D:3D语音驱动 FLEXUS_2D:FLEXUS版本资源 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token
参数类型 描述 script_type 否 String 参数解释: 脚本类型,即视频制作的驱动方式 约束限制: 不涉及 取值范围 TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动 默认取值: TEXT text_config 否 TextConfig object 讲解词配置。
用于互动回复。数字人不变,背景不变。params结构定义:PlayTextInfo。 INSERT_PLAY_AUDIO:插入驱动音频。用于音频直接驱动。数字人不变,背景不变。params结构定义:PlayAudioInfo。 REWRITE_PLAY_SCRIPT:动态编辑未播
直播间配置 限制 文本驱动 每个单场景中所有段落输入文字的总量需大于200字。 每个段落的文本字符数量需小于2000,如果包含语音合成标记语言SSML标签,需小于3000。 整个直播间所有段落的文本总字符数,如果包含语音合成标记语言SSML标签时,需小于30万。 音频驱动 每个单场景上传