AI开发平台MODELARTS-从OBS导入数据到数据集场景介绍:导入方式
导入方式
OBS导入数据方式分为“OBS目录”和“Manifest文件”两种。
- OBS目录:指需要导入的数据集已提前存储至OBS目录中。此时需选择用户具备权限的OBS路径,且OBS路径内的目录结构需满足规范,详细规范请参见从OBS目录导入数据规范说明。当前只有“图像分类”、“物体检测”、“表格”、“文本分类”和“声音分类”类型的数据集,支持从OBS目录导入数据。其他类型只支持Manifest文件导入数据集的方式。
- Manifest文件:指数据集为Manifest文件格式,Manifest文件定义标注对象和标注内容的对应关系,且Manifest文件已上传至OBS中。Manifest文件的规范请参见从Manifest文件导入规范说明。
导入“物体检测”类型数据集前,您需要保证标注文件的标注范围不超过原始图片大小,否则可能存在导入失败的情况。
数据集类型 |
标注类型 |
OBS目录导入 |
Manifest文件导入 |
---|---|---|---|
图片 |
图像分类 |
支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分类 |
支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分类 |
物体检测 |
支持 可以导入未标注或已标注数据 已标注数据格式规范:物体检测 |
支持 可以导入未标注或已标注数据 已标注数据格式规范:物体检测 |
|
图像分割 |
支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分割 |
支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分割 |
|
音频 |
声音分类 |
支持 导入的是未标注或已标注数据 格式规范:声音分类 |
支持 可以导入未标注或已标注数据 已标注数据格式规范:声音分类 |
语音内容 |
支持 导入的是未标注数据 |
支持 可以导入未标注或已标注数据 已标注数据格式规范:语音内容 |
|
语音分割 |
支持 导入的是未标注数据 |
支持 可以导入未标注或已标注数据 已标注数据格式规范:语音分割 |
|
文本 |
文本分类 |
支持 导入的是未标注或已标注数据 已标注数据格式规范:文本分类 |
支持 可以导入未标注或已标注数据 已标注数据格式规范:文本分类 |
命名实体 |
支持 导入的是未标注数据 |
支持 可以导入未标注或已标注数据 已标注数据格式规范:文本命名实体 |
|
文本三元组 |
支持 导入的是未标注数据 |
支持 可以导入未标注或已标注数据 已标注数据格式规范:文本三元组 |
|
视频 |
视频 |
支持 导入的是未标注数据 |
支持 可以导入未标注或已标注数据 已标注数据格式规范:视频标注 |
其他 |
自由格式 |
支持 导入的是未标注数据 |
- |
表格 |
表格 |
支持 格式规范:表格 |
- |