检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
表4 SpeechRecognitionInfo 参数 类型 描述 text string 识别结果文本。 resultId number 识别流式响应时返回的各包顺序序号。 isLast boolean 是否是最后一条识别结果。
MODELING_3D:3D照片建模 VDS_3D:3D视觉驱动 TTSA_3D:3D语音驱动 FLEXUS_2D:FLEXUS版本资源 sub_resource_type String 子资源类型。
照片数字人视频制作 左下角展示用户已购买资源的剩余量。 照片数字人视频制作支持开通或关闭按需计费。 声音合成 这里的声音合成,仅针对使用声音API调用,通过MetaStudio控制台声音制作方式生成的声音,来合成音频的费用。 声音合成支持开通或关闭按需计费。
分身数字人 分身数字人形象制作 一次性计费 分身数字人视频制作 按需计费 按需套餐包 一次性计费 声音制作 分身数字人声音制作基础版 分身数字人声音制作进阶版 分身数字人声音制作高级版 一次性计费 分身数字人视频直播 按需计费 包年/包月 分身数字人视频直播行业版 按需计费 包年/包月 照片数字人视频制作
MODELING_3D:3D照片建模 VDS_3D:3D视觉驱动 TTSA_3D:3D语音驱动 FLEXUS_2D:flexus版本资源 sub_resource_type String 子资源类型。
} 查询照片分身数字人视频制作任务详情 POST /v1/{project_id}/photo-digital-human-videos/{job_id}/cancel 取消等待中的照片分身数字人视频制作任务 POST /v1/{project_id}/photo-detection
创建照片分身数字人视频制作任务 5次/秒 3次/秒 3次/秒 查询照片分身数字人视频制作任务详情 20次/秒 10次/秒 10次/秒 取消等待中的照片分身数字人视频制作任务 5次/秒 3次/秒 3次/秒 创建照片检测任务 5次/秒 3次/秒 3次/秒 查询照片检测任务详情 20次
MODEL:通过分身数字人模型生成视频 PICTURE: 通过单张照片生成视频 说明: 该参数已废弃,照片数字人视频制作使用“创建照片分身数字人视频制作任务”接口。 human_image String 人物照片,需要Base64编码。
数字人与用户进行智能交互对话时,语音识别不准确的专业词汇,可以作为热词反馈到语音模型,以提高语音识别的准确率。这里仅开启热词功能,实际的热词配置,请参见对话配置。 SIS委托站点 仅开启“委托语言交互服务(SIS)”后,才会展示“SIS委托站点”配置。
数字人与用户进行智能交互对话时,语音识别不准确的专业词汇,可以作为热词反馈到语音模型,以提高语音识别的准确率。这里仅开启热词功能,实际的热词配置,请参见对话配置。 SIS委托站点 仅开启“委托语言交互服务(SIS)”后,才会展示“SIS委托站点”配置。
数字人与用户进行智能交互对话时,语音识别不准确的专业词汇,可以作为热词反馈到语音模型,以提高语音识别的准确率。这里仅开启热词功能,实际的热词配置,请参见对话配置。 SIS委托站点 仅开启“委托语言交互服务(SIS)”后,才会展示“SIS委托站点”配置。
MODELING_3D:3D照片建模 VDS_3D:3D视觉驱动 TTSA_3D:3D语音驱动 FLEXUS_2D:FLEXUS版本资源 resource_expire_start_time 否 String 资源过期时间段 开始时间。
包年/包月 照片数字人视频制作 按照片数字人视频制作时长计费。 计费时优先使用套餐包中的额度,该额度使用完后,转按需付费。 须知: 平台合成的视频按秒记录时长,套餐包以分钟记录时长。所以合成视频的总时长会从秒转化为分钟,保留小数点后两位,末位四舍五入。
图2 制作名片 表1 参数说明 区域 参数 说明 请填写数字人信息 上传头像 需提前准备一张正面清晰且无遮挡的数字人形象照片,并满足如下要求: 图片格式:png、jpg、jpeg、webp。 单击“查看示范”,查看正确示范和错误示范。
为方便识别和记忆,两边的技能名称可以设置一致。 技能标识 需要与MetaStudio服务新能技能的“技能标识”一致,如4所示。 父主题: 创建智能交互数字人(科大讯飞)
租户名称:输入自定义租户名称,方便SP用户识别租户身份。 图2 关联租户 单击“创建”,租户创建完成,如图3所示。 图3 租户列表 如需取消关联,可单击右侧的“取消关联”,在弹出的“取消关联租户提示”对话框中,单击“确定”。 租户取消成功后,租户未使用的资源将被收回。
为了提供交互功能,SDK会通过您主动点击聊天按钮申请客户应用或浏览器的麦克风权限,在您同意客户应用使用麦克风之后,将您的音频数据或文本数据上传到客户指定的第三方系统或模型,用于识别语义并做出应答,给您提供交互功能。
尾静音时长 云端对音频进行VAD检测,发现一句话末尾的静音时长超过500ms,会结束语音识别。建议该值大于500ms。
家用机器人还具备语音识别和语音回应功能,让您能够与机器人进行流畅的对话和交流。 164. 视觉交互:家用机器人配备了先进的摄像头和视觉传感器,可以通过图像识别和视觉感知与您进行交互。 165. 例如,机器人可以识别家庭成员的面孔、手势和身体姿势,并做出个性化的反应和服务。
尾静音时长 云端对音频进行VAD检测,发现一句话末尾的静音时长超过500ms,会结束语音识别。建议该值大于500ms。 图2 获取访问权限 单击“确定”,创建应用,创建效果如图3所示。 可单击“修改”,修改配置。