AI开发平台MODELARTS-从OBS导入数据到数据集场景介绍:导入方式

时间:2024-11-21 19:45:59

导入方式

OBS导入数据方式分为“OBS目录”“Manifest文件”两种。

  • OBS目录:指需要导入的数据集已提前存储至OBS目录中。此时需选择用户具备权限的OBS路径,且OBS路径内的目录结构需满足规范,详细规范请参见从OBS目录导入数据规范说明。当前只有“图像分类”“物体检测”“表格”“文本分类”“声音分类”类型的数据集,支持从OBS目录导入数据。其他类型只支持Manifest文件导入数据集的方式。
  • Manifest文件:指数据集为Manifest文件格式,Manifest文件定义标注对象和标注内容的对应关系,且Manifest文件已上传至OBS中。Manifest文件的规范请参见从Manifest文件导入规范说明

导入“物体检测”类型数据集前,您需要保证标注文件的标注范围不超过原始图片大小,否则可能存在导入失败的情况。

表1 不同类型数据集支持的导入方式

数据集类型

标注类型

OBS目录导入

Manifest文件导入

图片

图像分类

支持

可以导入未标注或已标注数据

已标注数据格式规范:图像分类

支持

可以导入未标注或已标注数据

已标注数据格式规范:图像分类

物体检测

支持

可以导入未标注或已标注数据

已标注数据格式规范:物体检测

支持

可以导入未标注或已标注数据

已标注数据格式规范:物体检测

图像分割

支持

可以导入未标注或已标注数据

已标注数据格式规范:图像分割

支持

可以导入未标注或已标注数据

已标注数据格式规范:图像分割

音频

声音分类

支持

导入的是未标注或已标注数据

格式规范:声音分类

支持

可以导入未标注或已标注数据

已标注数据格式规范:声音分类

语音内容

支持

导入的是未标注数据

支持

可以导入未标注或已标注数据

已标注数据格式规范:语音内容

语音分割

支持

导入的是未标注数据

支持

可以导入未标注或已标注数据

已标注数据格式规范:语音分割

文本

文本分类

支持

导入的是未标注或已标注数据

已标注数据格式规范:文本分类

支持

可以导入未标注或已标注数据

已标注数据格式规范:文本分类

命名实体

支持

导入的是未标注数据

支持

可以导入未标注或已标注数据

已标注数据格式规范:文本命名实体

文本三元组

支持

导入的是未标注数据

支持

可以导入未标注或已标注数据

已标注数据格式规范:文本三元组

视频

视频

支持

导入的是未标注数据

支持

可以导入未标注或已标注数据

已标注数据格式规范:视频标注

其他

自由格式

支持

导入的是未标注数据

-

表格

表格

支持

还支持从DWS、 DLI MRS 导入数据。

格式规范:表格

-

support.huaweicloud.com/usermanual-standard-modelarts/dataprepare-modelarts-0011.html