检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
物体检测图片标注,一张图片是否可以添加多个标签? 可以,一张图片可添加多个标签。 父主题: 数据标注
基于图片URL创建照片建模任务 功能介绍 该接口用于从URL中获取图片进行照片建模任务。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/digital-human/stylized/picture-modelings-by-url 表1 路径参数
下格式的富媒体: 图片:JPG、PNG、BMP、GIF、SVG。 视频:MP4。 导入富媒体操作 支持通过问答库导入富媒体。以奇妙问知识库为例,参考新增知识库,补充富媒体知识,示例如表1所示。 如果使用服务提供SDK默认样式,受限于浏览器的CSP策略,导入图片、视频链接的域名,需提交工单添加至白名单。
场景、图片和音乐资产。 图2 上传资产 单击“图片”,进入“图片上传”页面,如图3所示。 请根据实际情况,配置下述信息: 资产标题:图片的标题。 图片简介:图片的基本介绍,方便了解和使用。 风格:关键词标签,方便用户搜索此类型的资产。 基本信息:图片的用途。 图3 上传图片 单击
系统资产标签定义 查询资产列表接口支持使用“tags”标签对分身数字人模型进行分类。 “tags”取值及其含义,如表1所示。 表1 tags标签说明 tags取值类型 说明 数字人类型 取值如下: VIRTUAL_AVATARS:分身数字人 VIRTUAL_HUMANS:虚拟数字人
功能介绍 该接口用于在资产库中添加上传新的媒体资产。可上传的资产类型包括:分身数字人模型、背景图片、素材图片、素材视频、PPT等。 资产类型是IMAGE时,通过system_properties来区分背景图片(BACKGROUND_IMG)、素材图片(MATERIAL_IMG)。
查看详情”,进入“定制任务详情”页面。 审核通过后,任务状态变更为“算法训练中”,如图1所示。 单击右上角的“编辑”,可以为数字人添加标签。标签添加完成后,单击“保存”,保存修改。 图1 数字人定制任务 数字人模型会在3个工作日内训练完成。训练完成后的任务状态更新为“算法训练完成”,如图2所示。
音频支持的格式为:MP3、M4A、WAV。 音频要求如下所示: 仅提取单声道音频。 音频素材总大小小于500MB。 图片格式 图片支持的格式为:PNG、JPG、JPEG。 图片要求如下所示: 分辨率最大支持1080P。 图片素材总大小小于500MB。 字幕 字幕中正常断句的符号,如中文符号、,。:;!?…..
String 参数解释: 台词脚本。支持两种模式,纯文本模式和标签模式。 纯文本模式:使用方法,如“大家好,我是人工智大家,是个虚拟主播”。 标签模式:SSML标签的详细定义请参考文本驱动SSML定义。 约束限制: 不含SSML标签字符数最长10000个字符。 取值范围: 字符长度0-131072位。
String 参数解释: 台词脚本。支持两种模式,纯文本模式和标签模式。 纯文本模式:使用方法,如“大家好,我是人工智大家,是个虚拟主播”。 标签模式:SSML标签的详细定义请参考文本驱动SSML定义。 约束限制: 不含SSML标签字符数最长10000个字符。 取值范围: 字符长度0-131072位。
说明 商品名称 商品名称。 描述 商品描述。 类别 商品类别。设置以后,自动成为商品的标签,方便搜索商品。 支持多选,支持添加新类别。 产品素材 合成商品的素材。 包括如下内容: 贴图:从本地选择图片。 视频:从本地选择视频文件。 文本:手工输入文本内容。 音频:从本地选择音频文件。
网信算备520111252474601240045号 算法基本原理 分身数字人驱动算法是指通过深度学习生成数字人驱动模型,模型生成后,输入音频来合成数字人视频的一种技术。 其基本情况包括: 输入数据:真人视频、音频。 算法原理:通过深度学习算法来学习真人视频,生成驱动该真人形象的数字人模型。通过该模型输入音频,合成数字人视频。
音频支持的格式为:MP3、M4A、WAV。 音频要求如下所示: 仅提取单声道音频。 音频素材总大小小于500MB。 图片格式 图片支持的格式为:PNG、JPG、JPEG。 图片要求如下所示: 分辨率最大支持1080P。 图片素材总大小小于500MB。 字幕 字幕中正常断句的符号,如中文符号、,。:;!?…..
、JPEG和BMP格式的图片上传。 也支持直接拖拽本地图片至图片列表区域,完成上传操作。 关键词搜索框,可输入图片名称进行精准搜索。 示例:科技。 筛选条件 支持通过背景图片来源的维度,筛选展示下方的图片。 图片列表 默认展示全量图片。选中场景,单击图片,可以替换当前场景的背景。
常见问题 智能交互SDK安装包里为什么有图片资源? SDK里面包含图片资源,是因为智能交互的动效、背景可能需要图片资源才能展示更好的效果。所以智能交互Web SDK为了方便用户集成使用,会同时包含UI相关资源。 speechRecognized和semanticRecognized通知的流式返回有什么差异?
P格式的图片上传。 也支持直接拖拽本地图片至图片列表区域,完成上传操作。 界面默认展示两列图片,单击图标后,缩小展示为1列图片。单击图标,可恢复为2列展示。 关键词搜索框,可输入图片名称进行精准搜索。 示例:科技。 纯色背景 支持设置为透明背景(第一张图),此时不支持添加视频素材,且已添加的素材也会全部清除。
回复问题的时候,支持同时在直播画面中展示图片或者视频信息,以加强回复效果。图片和视频的添加和设置方式完全相同,下面以图片为例,进行操作说明。 单击下方的“+”区域框,从本地选择图片或视频,添加到“+”区域框中。 添加成功后,区域框展示图片缩略图,如所示。 将鼠标放在区域框中,区域框变化为形式。
该声音是否支持SSML的say-as标签。 约束限制: 不涉及 取值范围: true: 支持SSML的say-as标签 false: 不支持SSML的say-as标签 默认取值: false is_support_ssml_sub 否 Boolean 参数解释: 该声音是否支持SSML的sub标签。 约束限制:
单击“本地导入”,从本地选择PNG、JPG和JPEG格式的图片上传。暂不支持4K以上的图片。 也支持直接拖拽本地图片至图片列表区域,完成上传操作。 界面默认展示两列图片,单击图标后,缩小展示为1列图片。单击图标,可恢复为2列展示。 关键词搜索框,可输入图片名称进行精准搜索。 示例:科技。 筛选条件
该声音是否支持SSML的say-as标签。 约束限制: 不涉及 取值范围: true: 支持SSML的say-as标签 false: 不支持SSML的say-as标签 默认取值: false is_support_ssml_sub Boolean 参数解释: 该声音是否支持SSML的sub标签。 约束限制:
0-2147483647 默认取值: 0 name 否 String 按名称模糊查询。 tag 否 String 按标签模糊查询。 tag_combination_type 否 String 标签查询组合方式 INTERSECTION:交集 UNION_SET:并集 默认取值: UNION_SET