检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
、3GP、WMV、AVI时,无法展示视频播放效果,仅能图片展示。这是浏览器不兼容导致的,但是不影响视频合成效果。视频合成后,这些插入的视频可以正常播放和展示。 插入的视频素材,要求如下所示: 分辨率最大支持1080P。 帧率小于等于30fps。 编码为AV1、VP8、VP9、H264或H265格式。
2024-03-15 本次变更如下: 新增发布1.1.0版本SDK,相比1.0.0版本,新增如下功能: 支持英文版智能交互。 增加热点问题开关,可以控制是否显示热点问题,详情请参考create中config参数配置或setConfig。 如果打开开关,需要智能交互任务已配置热点问题。 2024-01-30
切割,自动识别文本内容。 音频文件命名无要求,可自定义,命名示例:Voice.wav。 进阶版 高品质 制作声音模型 准备好音频文件后,就可以上传至MetaStudio控制台,进行声音训练。详细操作如下所示: 创建声音制作任务(自研模型) 查看声音 声音模型制作耗时,如下所示: 基础版:约1~3个工作日。
为文本。 热词 仅开启“委托语言交互服务(SIS)”后,才会展示“热词”配置。 数字人与用户进行智能交互对话时,语音识别不准确的专业词汇,可以作为热词反馈到语音模型,以提高语音识别的准确率。这里仅开启热词功能,实际的热词配置,请参见对话配置。 SIS委托站点 仅开启“委托语言交互
"welcome_speech_id" : "af482f19fa934279831844ddeb13eaab", "welcome_speech" : "您好,有什么可以帮助您?", "enable_welcome_speech" : true, "robot_id" : "b3e2b1db10b3
"welcome_speech_id" : "af482f19fa934279831844ddeb13eaab", "welcome_speech" : "您好,有什么可以帮助您?", "enable_welcome_speech" : true, "robot_id" : "b3e2b1db
剧本名称。 script_description String 剧本描述。 model_asset_id String 数字人模型资产ID,可以从资产库中查询。 model_asset_type String 数字人模型类型。 HUMAN_MODEL_2D:分身数字人 HUMAN_MODEL_3D:3D数字人
如果填写了script_id,model_asset_id、voice_config、scene_asset_id、video_config、shoot_scripts可以不填,以脚本中的配置为准。 如果填写了script_id,并且同时也填写了model_asset_id、voice_config、scen
用户驳回,仅NA白名单用户有该状态 JOB_REJECT: 驳回任务 已完成 JOB_SUCCESS: 训练任务完成(普通用户任务的完成状态,此时用户已经可以使用模型) JOB_FINISH: 任务结束,是最终状态,不支持修改此状态(NA用户任务的完成状态,并且此状态表明模型效果已通过用户的验收)
该参数已废弃,照片数字人视频制作使用“创建照片分身数字人视频制作任务”接口。 model_asset_id String 分身数字人模型资产ID,可以从资产库中查询。 voice_config VoiceConfig object 语音配置参数。 video_config VideoConfig
0-1920 表6 VoiceConfig 参数 是否必选 参数类型 描述 voice_asset_id 是 String 参数解释: 音色资产ID,可以从资产库中查询。 音色ID的查询操作,详见查询预置音色ID。 约束限制: 不涉及。 取值范围: 字符长度1-256位。 默认取值: 不涉及。
SHARER:共享方,SHAREE:被共享方 is_realtime_voice 否 Boolean 音色是否支持实时合成。仅在音色查询时有效。 说明: 支持实时合成的音色,可以用于直播和智能交互场景。否则只能用于视频制作。 human_model_2d_version 否 String 模型版本 include_device_name
String 错误描述。 表8 VoiceConfig 参数 参数类型 描述 voice_asset_id String 参数解释: 音色资产ID,可以从资产库中查询。 音色ID的查询操作,详见查询预置音色ID。 约束限制: 不涉及。 取值范围: 字符长度1-256位。 默认取值: 不涉及。
用户驳回,仅NA白名单用户有该状态 JOB_REJECT: 驳回任务 已完成 JOB_SUCCESS: 训练任务完成(普通用户任务的完成状态,此时用户已经可以使用模型) JOB_FINISH: 任务结束,是最终状态,不支持修改此状态(NA用户任务的完成状态,并且此状态表明模型效果已通过用户的验收)
取值范围: 0-1920 表7 VoiceConfig 参数 参数类型 描述 voice_asset_id String 参数解释: 音色资产ID,可以从资产库中查询。 音色ID的查询操作,详见查询预置音色ID。 约束限制: 不涉及。 取值范围: 字符长度1-256位。 默认取值: 不涉及。
回调设置。 表4 VoiceConfig 参数 是否必选 参数类型 描述 voice_asset_id 是 String 参数解释: 音色资产ID,可以从资产库中查询。 音色ID的查询操作,详见查询预置音色ID。 约束限制: 不涉及。 取值范围: 字符长度1-256位。 默认取值: 不涉及。
0-1920 表6 VoiceConfig 参数 是否必选 参数类型 描述 voice_asset_id 是 String 参数解释: 音色资产ID,可以从资产库中查询。 音色ID的查询操作,详见查询预置音色ID。 约束限制: 不涉及。 取值范围: 字符长度1-256位。 默认取值: 不涉及。
默认取值: 1 is_realtime_voice 否 Boolean 参数解释: 该音色是否支持实时合成。 约束限制: 支持实时合成的音色,可以用于直播和智能交互场景。否则只能用于视频制作。 取值范围: true: 支持实时合成 false: 不支持实时合成 默认取值: true style
剧本封面下载url。 表5 VoiceConfig 参数 参数类型 描述 voice_asset_id String 参数解释: 音色资产ID,可以从资产库中查询。 音色ID的查询操作,详见查询预置音色ID。 约束限制: 不涉及。 取值范围: 字符长度1-256位。 默认取值: 不涉及。
默认取值: 1 is_realtime_voice Boolean 参数解释: 该音色是否支持实时合成。 约束限制: 支持实时合成的音色,可以用于直播和智能交互场景。否则只能用于视频制作。 取值范围: true: 支持实时合成 false: 不支持实时合成 默认取值: true style