数据管理有哪些功能?
数据管理平台提供了聚类分析、数据特征分析、数据清洗、数据校验、数据增强、数据选择等分析处理能力,可帮助开发者进一步理解数据和挖掘数据,从而准备出一份满足开发目标或项目要求的高价值数据。
开发者在数据管理平台可以在线完成图像分类、目标检测、音频分割、文本三元组、视频分类等各种标注场景,同时也可以使用ModelArts智能标注方案,通过预置算法或自定义算法代替人工完成数据标注,提升标注效率。
针对大规模协同标注场景,数据管理平台还提供了强大的团队标注,支持标注团队管理、人员管理、角色管理等,实现从项目的创建、数据分配、进度把控、标注、审核、验收全流程。为用户带来标注效率提升的同时,又最小化项目管理开销。
此外,数据管理平台时刻保障用户数据的安全性和隐私性,确保用户数据仅在授权范围内使用。
数据集管理
如何快速在数据管理平台创建数据集
须知
1.数据管理功能需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。在使用数据管理功能之前,请前往“全局配置”页面,使用委托完成访问授权。
2.已创建用于存储数据的OBS桶及文件夹。并且,数据存储的OBS桶与ModelArts在同一区域。当前不支持OBS并行文件系统,请选择OBS对象存储。
3.ModelArts不支持加密的OBS桶,创建OBS桶时,请勿开启桶加密。
在数据管理平台创建数据集
1.登录ModelArts管理控制台,选择数据管理>数据集。
2.单击创建数据集。
3.选择数据类型与数据来源以及导入路径。
4.单击提交,完成数据集的创建。
创建数据集时的数据接入:
1.从OBS导入数据,创建数据集。
2.从本地上传数据,创建数据集。
3.从AI Gallery下载数据,创建数据集。
4.从DLI导入数据。
5.从MRS导入数据。
6.从DWS导入数据。
数据管理-人工标注
图片标注
ModelArts数据标注中的图片标注指图片类型的数据集进行标注。图片标注的标注作业类型,分为“图像分类”、“物体检测”、“图像分割”三种标注类型。
文本标注
文本场景的标注主要为“文本分类”、“命名实体”、“文本三元组”。
分别支持对文本的内容按照标签进行分类处理。
对文本中的实体片段进行标注。
对文本的实体片段以及实体之间的关系进行标注。
音频标注
对声音进行分类。
对语音内容进行标注。
对语音进行分段标注。
视频标注
由于模型训练过程需要大量有标签的视频数据,因此在模型训练之前需对没有标签的视频添加标签。通过ModelArts您可对视频添加标签,快速完成对视频的标注操作,也可以对已标注视频修改或删除标签进行重新标注。
数据管理-智能标注
除了人工标注外,ModelArts数据管理平台还提供了智能标注功能,快速完成数据标注,为您节省70%以上的标注时间。数据管理中的智能标注是指基于当前标注阶段的标签及图片学习训练,选中系统中已有的模型进行智能标注,快速完成剩余图片的标注操作。
须知:
- 目前只有“图像分类”和“物体检测”类型的标注作业支持智能标注功能。
- 启动智能标注时,需标注作业存在至少2种标签,且每种标签已标注的图片不少于5张。
- 启动智能标注时,必须存在未标注图片。
- 启动智能标注前,保证当前系统中不存在正在进行中的智能标注任务。
- 检查用于标注的图片数据,确保您的图片数据中,不存在RGBA四通道图片。如果存在四通道图片,智能标注任务将运行失败,因此,请从数据集中删除四通道图片后,再启动智能标注。
启动智能标注:
- 1.登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理 > 数据标注”,进入“数据标注”管理页面。
- 2.在标注作业列表中,选择“物体检测”或“图像分类”类型的标注作业,单击操作列的“智能标注”启动智能标注作业。
- 3.在弹出的“启动智能标注”对话框中,选择智能标注类型,可选“主动学习”或者“预标注”。
- 4.完成参数设置后,单击“提交”,即可启动智能标注。
- 5.在标注作业列表中,单击标注作业名称进入“标注作业详情”页。
- 6.在“数据集概览页标注作业详情页”,选择“标注”页签,单击“待确认”页签,即可查看智能标注进度。您也可以在该页签,“启动智能标注”或者查看“智能标注历史”
数据管理-数据发布
须知
- 1.数据管理中针对刚创建的数据集(未发布前),无数据集版本信息,必须执行发布操作后,才能应用于模型开发或训练。
- 2.在数据管理中数据集版本,默认按V001、V002递增规则进行命名,您也可以在发布时自定义设置。
- 3.您可以将任意一个版本设置为当前目录,即表示数据集列表中进入的数据集详情,为此版本的数据及标注信息。
- 4.数据管理针对每一个数据集版本,您可以通过“存储路径”参数,获得此版本对应的Manifest文件格式的数据集。可用于导入数据或难例筛选操作。
- 5.表格数据集暂不支持切换版本。
操作步骤
- 1.登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理> 数据集”,进入“数据集”管理页面。
- 2.在数据集列表中,单击操作列的“发布”。或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“发布”。
- 3.在“发布新版本”弹出框中,填写发布数据集的相关参数,然后单击“确定”。