检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据集管理 查询数据集列表 创建数据集 查询数据集详情 更新数据集 删除数据集 父主题: 数据管理
同步数据集 功能介绍 从数据集输入位置同步数据至数据集,包含样本及标注信息。文本类数据集不支持此操作。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v
数据集如何切分 在发布数据集时,仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。 一般默认不启用该功能。启用后,需设置对应的训练验证比例。 输入“训练集比例”,数值只能是0~1区间内的数。设置好“训练集比例”后,“验证集比例”自动填充。“训练集比例”加“验证集比例”等于1。
type 否 Integer 标签类型。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组关系标签 103:文本三元组实体标签 200:语音分类 201:语音内容 202:语音分割 600:视频标注 表4 LabelAttribute
Integer 根据数据集类型查询数据集列表,与data_type参数二选一。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组 200:声音分类 201:语音内容 202:语音分割 400:表格数据集 600:视频标注
内置属性:三元组关系标签的指向实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 响应参数 状态码: 200 表7 响应Body参数 参数 参数类型 描述 dataset_id String 数据集ID。 请求示例 更新数据集 { "description" : "just a
1:物体检测 3:图像分割 100:文本分类 101:命名实体 102:文本三元组 200:声音分类 201:语音内容 202:语音分割 400:表格数据集 600:视频标注 900:自由格式 label_task_id 否 String 基于标注任务创建数据集版本,标注任务ID。 description
CarbonData:Carbon格式(仅表格数据集支持) data_sources 是 Array of DataSource objects 数据集输入位置,用于将此目录及子目录下的源数据(如图片/文件/音频等)同步到数据集。对于表格数据集,该参数为导入目录。表格数据集的工作目录不支持为KMS加
查询数据集版本详情 根据版本ID查询数据集指定版本的详细信息。 dataset.get_version_info(version_id) 示例代码 查询数据集指定版本的详细信息 from modelarts.session import Session from modelarts
更新数据集 更新数据集的名称和描述信息。 dataset.update_dataset(dataset_name=None, description=None) 示例代码 更新数据集名称 from modelarts.session import Session from modelarts
导出数据为新数据集 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。 在数据集列表中,选择“图片”类型的数据集,单击数据集名称进入“数据集概览页”。 在“数据集概览页”,单击右上角“导出 ”。在弹出的“导出”对话框中,填写相关信
文件型数据从Manifest导入操作 不同类型的数据集,导入操作界面的示意图存在区别,请参考界面信息了解当前类型数据集的示意图。当前操作指导以图片数据集为例。 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。 在数据集所在行,单击操作列的“导入”。
文件型数据从OBS目录导入操作 不同类型的数据集,导入操作界面的示意图存在区别,请参考界面信息了解当前类型数据集的示意图。当前操作指导以图像分类的数据集为例。 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理 >数据集”,进入“数据集”管理页面。 在数据集所在行,单击操作列的“导入
单栏中选择“资产管理> 数据集”,进入数据集管理页面。 单击“创建数据集”,进入“创建数据集”页面,根据数据类型以及数据标注要求,选择创建表格类型的数据集。填写数据集基本信息。 图5 表格类型的参数 名称:数据集的名称,可自定义您的数据集。 描述:该数据集的详情信息。 数据类型:根据实际需求,选择对应的数据类型。
dataset_type 否 Integer 根据数据集类型查询数据集列表,默认为空。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组 200:声音分类 201:语音内容 202:语音分割 400:表格数据集 600:视频标注 900:自由格式
已标注数据格式规范:语音分割 文本 文本分类 支持 导入的是未标注或已标注数据 已标注数据格式规范:文本分类 支持 可以导入未标注或已标注数据 已标注数据格式规范:文本分类 命名实体 支持 导入的是未标注数据 支持 可以导入未标注或已标注数据 已标注数据格式规范:文本命名实体 文本三元组 支持 导入的是未标注数据
删除数据集 根据数据集ID删除指定的数据集 delete_dataset(session, dataset_id) 示例代码 删除数据集 from modelarts.session import Session from modelarts.dataset import Dataset
查询数据集详情 查询数据集的详细信息,包括数据集的样本信息、版本信息等。 dataset.get_dataset_info() 示例代码 查询数据集详情 from modelarts.session import Session from modelarts.dataset import
Gallery下载到桶里的数据集,再在ModelArts里创建数据集,显示样本数为0 首先需要确认从AI Gallery下载的数据格式,比如压缩包、excel文件等会被忽略,支持格式详情: 数据集类型 标注类型 创建数据集 导入数据 导出数据 发布数据集 修改数据集 管理版本 自动分组
图11 新增命名实体标签 标注文本(文本三元组) 标注作业详情页中,展示了此标注作业中“未标注”和“已标注”的文本,默认显示“未标注”的文本列表。 在“未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,选中相应文本内容,在页面呈现的实体类型列表中选择实体名称,完成实体标注。