数据管理有哪些功能?

数据管理平台提供了聚类分析、数据特征分析、数据清洗、数据校验、数据增强、数据选择等分析处理能力,可帮助开发者进一步理解数据和挖掘数据,从而准备出一份满足开发目标或项目要求的高价值数据。

开发者在数据管理平台可以在线完成图像分类、目标检测、音频分割、文本三元组、视频分类等各种标注场景,同时也可以使用ModelArts智能标注方案,通过预置算法或自定义算法代替人工完成数据标注,提升标注效率。

针对大规模协同标注场景,数据管理平台还提供了强大的团队标注,支持标注团队管理、人员管理、角色管理等,实现从项目的创建、数据分配、进度把控、标注、审核、验收全流程。为用户带来标注效率提升的同时,又最小化项目管理开销。

此外,数据管理平台时刻保障用户数据的安全性和隐私性,确保用户数据仅在授权范围内使用。

数据集管理

数据集支持的类型

文件型

  1. 图片:对图像类数据进行处理,支持 .jpg、.png、.jpeg、.bmp四种图像格式,支持用户进行图像分类、物体检测、图像分割类型的标注。
  2. 音频:对音频类数据进行处理,支持.wav格式,支持用户进行声音分类、语音内容、语音分割三种类型的标注。
  3. 文本:对文本类数据进行处理,支持.txt、.csv格式,支持用户进行文本分类、命名实体、文本三元组三种类型的标注。
  4. 视频:对视频类数据进行处理,支持.mp4格式,支持用户进行视频标注。
  5. 自由格式:管理的数据可以为任意格式,目前不支持标注,适用于无需标注或开发者自行定义标注的场景。如果您的数据集需存在多种格式数据,或者您的数据格式不符合其他类型数据集时,可选择自由格式的数据集

表格型

  1. 表格:适合表格等结构化数据处理。数据格式支持csv和carbon。不支持标注,支持对部分表格数据进行预览,但是最多支持100条数据预览。

如何快速在数据管理平台创建数据集

须知

1.数据管理功能需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。在使用数据管理功能之前,请前往“全局配置”页面,使用委托完成访问授权。

2.已创建用于存储数据的OBS桶及文件夹。并且,数据存储的OBS桶与ModelArts在同一区域。当前不支持OBS并行文件系统,请选择OBS对象存储。

3.ModelArts不支持加密的OBS桶,创建OBS桶时,请勿开启桶加密。

在数据管理平台创建数据集

1.登录ModelArts管理控制台,选择数据管理>数据集。

2.单击创建数据集。

3.选择数据类型与数据来源以及导入路径。

4.单击提交,完成数据集的创建。

创建数据集时的数据接入:

1.从OBS导入数据,创建数据集。

2.从本地上传数据,创建数据集。

3.从AI Gallery下载数据,创建数据集。

4.从DLI导入数据。

5.从MRS导入数据。

6.从DWS导入数据。

数据管理-人工标注

图片标注

ModelArts数据标注中的图片标注指图片类型的数据集进行标注。图片标注的标注作业类型,分为“图像分类”、“物体检测”、“图像分割”三种标注类型。

文本标注

文本场景的标注主要为“文本分类”、“命名实体”、“文本三元组”。

分别支持对文本的内容按照标签进行分类处理。

对文本中的实体片段进行标注。

对文本的实体片段以及实体之间的关系进行标注。

音频标注

对声音进行分类。

对语音内容进行标注。

对语音进行分段标注。

视频标注

由于模型训练过程需要大量有标签的视频数据,因此在模型训练之前需对没有标签的视频添加标签。通过ModelArts您可对视频添加标签,快速完成对视频的标注操作,也可以对已标注视频修改或删除标签进行重新标注。

数据管理-智能标注

除了人工标注外,ModelArts数据管理平台还提供了智能标注功能,快速完成数据标注,为您节省70%以上的标注时间。数据管理中的智能标注是指基于当前标注阶段的标签及图片学习训练,选中系统中已有的模型进行智能标注,快速完成剩余图片的标注操作。

须知:

  1. 目前只有“图像分类”和“物体检测”类型的标注作业支持智能标注功能。
  2. 启动智能标注时,需标注作业存在至少2种标签,且每种标签已标注的图片不少于5张。
  3. 启动智能标注时,必须存在未标注图片。
  4. 启动智能标注前,保证当前系统中不存在正在进行中的智能标注任务。
  5. 检查用于标注的图片数据,确保您的图片数据中,不存在RGBA四通道图片。如果存在四通道图片,智能标注任务将运行失败,因此,请从数据集中删除四通道图片后,再启动智能标注。

启动智能标注:

  1. 1.登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理 > 数据标注”,进入“数据标注”管理页面。
  2. 2.在标注作业列表中,选择“物体检测”或“图像分类”类型的标注作业,单击操作列的“智能标注”启动智能标注作业。
  3. 3.在弹出的“启动智能标注”对话框中,选择智能标注类型,可选“主动学习”或者“预标注”。
  4. 4.完成参数设置后,单击“提交”,即可启动智能标注。
  5. 5.在标注作业列表中,单击标注作业名称进入“标注作业详情”页。
  6. 6.在“数据集概览页标注作业详情页”,选择“标注”页签,单击“待确认”页签,即可查看智能标注进度。您也可以在该页签,“启动智能标注”或者查看“智能标注历史”

数据管理-团队标注

数据管理平台针对数据集较大的数据标注任务,需要多人协助完成。ModelArts提供了团队标注功能,可以由多人组成一个标注团队,针对同一个数据集进行标注管理。

创建团队标注任务

1.在创建标注作业时,即启用团队标注,且指派某一团队负责标注。

2.团队标注功能当前仅支持“图像分类”、“物体检测”、“文本分类”、“命名实体”、“文本三元组”、“语音分割”类型的数据集。

登录ModelArts-console

1.团队标注任务创建成功后,团队成员收到标注任务的邮件。

2.单击任务邮件中的标注任务地址,跳转至ModelArts数据管理>数据标注页面的“我参与的”页签。

3.在“我参与的”页签下,可查看您的标注任务。

启动团队标注

在标注页面中,每个成员可查看“未标注”、“待确认”、“已驳回”、“待审核”、“审核通过”、“验收通过”的图片信息。请及时关注管理员驳回以及待修正的图片。

当团队标注任务中,分配了Reviewer角色,则需要对标注结果进行审核,审核完成后,再提交给管理员验收。

审核标注结果

1.团队审核者在任务列表“操作”列单击“审核”,发起审核。

2.在审核页面中,审核人员可以查看“未审核”、“已审核”、“审核通过”、“审核不通过”的样本。

3.审核人员可以在审核页面的右侧选择“审核结果”。

验收标注结果

1.管理员进入“标注作业详情页”,单击右上角“验收”,发起验收。

2.设置抽样策略,启动验收。

3.在实时验收报告中选择验收结果。

4.查看验收报告。

5.验收结束后删除标注任务。

数据管理-数据发布

须知

  1. 1.数据管理中针对刚创建的数据集(未发布前),无数据集版本信息,必须执行发布操作后,才能应用于模型开发或训练。
  2. 2.在数据管理中数据集版本,默认按V001、V002递增规则进行命名,您也可以在发布时自定义设置。
  3. 3.您可以将任意一个版本设置为当前目录,即表示数据集列表中进入的数据集详情,为此版本的数据及标注信息。
  4. 4.数据管理针对每一个数据集版本,您可以通过“存储路径”参数,获得此版本对应的Manifest文件格式的数据集。可用于导入数据或难例筛选操作。
  5. 5.表格数据集暂不支持切换版本。

操作步骤

  1. 1.登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理> 数据集”,进入“数据集”管理页面。
  2. 2.在数据集列表中,单击操作列的“发布”。或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“发布”。
  3. 3.在“发布新版本”弹出框中,填写发布数据集的相关参数,然后单击“确定”。

数据管理常见问题

  • 数据管理中的团队标注的数据分配机制是什么?

    数据管理团队标注目前不支持用户自定义成员任务分配,数据是平均分配的。

    当数量和团队成员人数不成比例,无法平均分配时,则将多余的几张图片,随机分配给团队成员。

    如果样本数少于待分配成员时,部分成员会存在未分配到样本的情况。样本只会分配给labeler,比如10000张都是未标注,且5个都是labeler的话,那就是每个人分2000。

  • 数据管理中团队标注的完成验收的各选项表示什么意思?

    1.全部通过:被驳回的样本,也会通过。

    2.全部驳回时:已经通过的样本,需要重新标注,下次验收时重新进行审核。

    3.剩余全部通过:已经驳回的会驳回,其余会自动验收通过。

    4.剩余全部驳回时,样本抽中的通过的,不需要标注了,未通过和样本未抽中的需要重新标注验收。

  • 数据管理的视频数据集无法显示和播放视频?

    若无法显示和播放视频,请检查视频格式类型,目前只支持MP4格式。

  • 数据管理表格类型的数据集如何标注?

    表格类型的数据集适合表格等结构化数据处理。数据格式支持csv。不支持标注,支持对部分表格数据进行预览,但是最多支持100条数据预览。

  • 数据管理中如何将两个数据集合并?

    目前不支持直接合并。

    但是可以参考如下操作方式,将两个数据集的数据合并在一个数据集中。

    例如需将数据集A和数据集B进行合并。

    1.分别将数据集A和数据集B进行发布。

    2.发布后可获得数据集A和数据集B的Manifest文件。可通过数据集的“数据集输出位置”获得此文件。

    3.创建一个空数据集C,即无任何输出,其输入位置选择一个空的OBS文件夹。

    4.在数据集C中,执行导入数据操作,将数据集A和数据集B的Manifest文件导入。导入完成后,即将数据集A和数据集B的数据分别都合并至数据集C中。如需使用合并后的数据集,再针对数据集C执行发布操作即可。

  • 数据管理模块团队标注时,为什么团队成员收不到邮件?

    团队标注时,成员收不到邮件的可能原因如下:

    1.当数据集中的所有数据已完成标注,即“未标注”数据为空时,创建的团队标注任务,因为没有数据需要标注,不会给团队成员发送标注邮件。在发起团队标注任务时,请确保数据集中存在“未标注”数据。

    2.只有当创建团队标注任务时,标注人员才会收到邮件。创建标注团队及添加标注团队的成员并不会发送邮件。

    3.请确保您的邮箱已完成配置且配置无误。可参考管理成员,完成邮箱配置。

    4.团队成员自检其邮箱是否有拦截设置。

  • 数据管理的智能标注完成后新加入数据是否需要重新训练?

    智能标注完成后,需要对标注数据确认,如果未确认,直接加入更多数据,重新智能标注,会重新全部将未标注的数据全部重新训练标注。如果确认了后,再加入未标注的数据,需要重新训练。

  • 数据管理导入数据集失败?

    导入数据集失败可能原因为OBS桶类型选择错误,请您选择标准存储类型的桶导入。