云服务器内容精选

  • 关于数据集版本 针对刚创建的数据集(未发布前),无数据集版本信息,必须执行发布操作后,才能应用于模型开发或训练。 数据集版本,默认按V001、V002递增规则进行命名,您也可以在发布时自定义设置。 您可以将任意一个版本设置为当前目录,即表示数据集列表中进入的数据集详情,为此版本的数据集标注信息。 针对每一个数据集版本,您可以通过“存储路径”参数,获得此版本对应的Manifest文件格式的数据集。可用于导入数据或难例筛选操作。 表格数据集暂不支持切换版本。
  • 数据集版本文件目录结构 由于数据集是基于OBS目录管理的,发布为新版本后,对应的数据集输出位置,也将基于新版本生成目录。 以图像分类为例,数据集发布后,对应OBS路径下生成,其相关文件的目录如下所示。 |-- user-specified-output-path |-- DatasetName-datasetId |-- annotation |-- VersionMame1 |-- VersionMame1.manifest |-- VersionMame2 ... |-- ... 以物体检测为例,如果数据集导入的是Manifest文件,在数据集发布后,其相关文件的目录结构如下。 |-- user-specified-output-path |-- DatasetName-datasetId |-- annotation |-- VersionMame1 |-- VersionMame1.manifest |-- annotation |-- file1.xml |-- VersionMame2 ... |-- ... 以视频标注为例,在数据集发布后,标注结果将标注结果文件(XML)存放在数据集输出目录下。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 |-- user-specified-output-path |-- DatasetName-datasetId |-- annotation |-- VersionMame1 |-- VersionMame1.manifest |-- annotations |-- images |-- videoName1 |-- videoName1.timestamp.xml |-- videoName2 |-- videoName2.timestamp.xml |-- VersionMame2 ... |-- ... 视频标注的关键帧存在数据集的输入目录下。 |-- user-specified-input-path |-- images |-- videoName1 |-- videoName1.timestamp.jpg |-- videoName2 |-- videoName2.timestamp.jpg
  • 数据准备使用流程 ModelArts是面向AI开发者的一站式开发平台,能够支撑开发者从数据到AI应用的全流程开发过程,包含数据处理、算法开发、模型训练、模型部署等操作。并且提供AI Gallery功能,能够在市场内与其他开发者分享数据、算法、模型等。为了能帮用户快速准备大量高质量的数据,ModelArts数据管理提供了全流程的数据准备、数据处理和数据标注能力。 图1 ModelArts数据准备全流程 ModelArts数据管理为用户准备高质量的AI数据提供了以下主要能力: 解决用户获取数据的问题。 用户可在AI Gallery上一键下载需要的数据资源到ModelArts数据管理。 提供多种数据接入方式,支持用户从OBS, MRS DLI 以及DWS等服务导入用户的数据。 提供18+数据增强算子,帮助用户扩增数据,增加训练用的数据量。 帮助用户提高数据的质量。 提供图像、文本、音频、视频等多种格式数据的预览,帮助用户识别数据质量。 提供对数据进行多维筛选的能力,用户可以根据样本属性、标注信息等进行样本筛选。 提供12+标注工具,方便用户进行精细化、场景化和专业化的数据标注。 提供基于样本和标注结果进行特征分析,帮助用户整体了解数据的质量。 提升用户数据准备的效率。 提供数据版本管理能力,帮助用户提升数据管理的效率。 提供数据校验、数据选择、数据清洗等多种数据处理算子,帮助用户快速处理数据。 提供交互式标注、智能标注等能力,提升用户数据标注的效率。 提供团队标注以及团队标注流程管理能力,帮助用户提升大批量数据标注的能力。 父主题: 数据准备与处理