AI开发平台MODELARTS-团队标注使用教程:准备数据
准备数据
本案例需要的数据集介绍。
- 人车检测数据集
- 用于物体检测,包含150张未标注样本
- 数据集一共包含两类:行人,车辆
- 创建OBS桶
OBS可以简单的理解成一个在线网盘,因为ModelArts本身目前没有数据存储的功能,所以需要从OBS里调用ModelArts上传的数据进行训练,进入OBS控制台,进入后单击右上角“创建桶”按钮。进入新建桶界面, 按照如下示例进行填写:
- 区域:华北-北京一
- 数据冗余存储策略:单AZ存储
- 桶名称:自定义,需要全局唯一,即在整个华为云上的名字唯一。
- 其它选项保持默认即可
图3 填写桶参数
填写完成后,单击右下角的“立即创建”按钮并确认,稍等几秒钟即可完成 OBS桶的创建。
- 导入数据
单击访问下载页面《人车检测数据集》,单击“下载”。
图4 下载数据集
- 下载方式:ModelArts数据集。
- 目标区域: 华北-北京一。
- 数据类型:根据实际情况选择该数据集的数据类型,例如该案例选择图片类型。
- 数据集输出位置:据集输出位置的OBS路径,此位置会存放输出的标注信息等文件,此位置不能和OBS数据源中的文件路径相同或为其子目录。
- 数据集输入位置:AI Gallery的数据集下载到OBS的路径,此位置会作为数据集的数据存储路径,数据集输入位置不能和输出位置相同。
- 名称:默认生成“data-xxxx”形式的数据集名称,该数据集会同步在ModelArts数据集列表中。
- 描述:可以添加对于该数据集的相关描述。
图5 参数填写
确认目标位置选择正确后,单击 “确定” 开始启动数据集下载并进入下载列表,查看下载进度。
图6 查看下载进度
此页面需要自己手动刷新页面查看最新下载进度,因数据集较大,下载预计要花费3~5分钟左右。
此处下载完成后,并不代表数据集完全创建成功,回到数据集管理页面,可以看到此处自动创建了一个数据集,并且正在运行中,我们需要等待它导入完成。
图7 等待数据集导入完成