数据准备与处理-华为云

AI开发平台MODELARTS-创建ModelArts数据集:规格限制

规格限制除表格类型之外的数据集（如视频、文本、音频等），单个数据集的最大样本数量限制：1000000，最大标签数量限制：10000。除图片类型之外的数据集（如视频、文本、音频等），单个样本大小限制：5GB。针对图片类数据集（物体检测、图像分类、图像分割），单个图片大小限制：25MB。单个manifest文件大小限制：5GB。文本文件单行大小限制：100KB。数据集标注结果文件大小限制：100MB。

AI开发平台MODELARTS 数据准备与处理

AI开发平台MODELARTS-创建ModelArts数据集:数据集的类型

数据集的类型当前ModelArts支持如下格式的数据集。图片：对图像类数据进行处理，支持 .jpg、.png、.jpeg、.bmp四种图像格式，支持用户进行图像分类、物体检测、图像分割类型的标注。音频：对音频类数据进行处理，支持.wav格式，支持用户进行声音分类、语音内容、语音分割三种类型的标注。文本：对文本类数据进行处理，支持.txt、.csv格式，支持用户进行文本分类、命名实体、文本三元组三种类型的标注。视频：对视频类数据进行处理，支持.mp4格式，支持用户进行视频标注。自由格式：管理的数据可以为任意格式，目前不支持标注，适用于无需标注或开发者自行定义标注的场景。如果您的数据集需存在多种格式数据，或者您的数据格式不符合其他类型数据集时，可选择自由格式的数据集。表格表格：适合表格等结构化数据处理。数据格式支持csv。不支持标注，支持对部分表格数据进行预览，但是最多支持100条数据预览。

AI开发平台MODELARTS 数据准备与处理

AI开发平台MODELARTS-创建ModelArts数据集:不同类型数据集支持的功能列表

不同类型数据集支持的功能列表其中，不同类型的数据集支持不同的功能，如智能标注、团队标注等。详细信息参考表1。表1 不同类型的数据集支持的功能数据集类型标注类型创建数据集导入数据导出数据发布数据集修改数据集管理版本智能标注团队标注自动分组数据特征图片图像分类支持支持支持支持支持支持支持支持支持支持物体检测支持支持支持支持支持支持支持支持支持支持图像分割支持支持支持支持支持支持 - - 支持 - 音频声音分类支持支持 - 支持支持支持 - - - - 语音内容支持支持 - 支持支持支持 - - - - 语音分割支持支持 - 支持支持支持 - 支持 - - 文本文本分类支持支持 - 支持支持支持 - 支持 - - 命名实体支持支持 - 支持支持支持 - 支持 - - 文本三元组支持支持 - 支持支持支持 - 支持 - - 视频视频支持支持 - 支持支持支持 - - - - 自由格式自由格式支持 - _ 支持支持支持 - - - - 表格表格支持支持 - 支持支持支持 - - - -

AI开发平台MODELARTS 数据准备与处理

AI开发平台MODELARTS-发布ModelArts数据集中的数据版本:关于数据集版本

关于数据集版本针对刚创建的数据集（未发布前），无数据集版本信息，必须执行发布操作后，才能应用于模型开发或训练。数据集版本，默认按V001、V002递增规则进行命名，您也可以在发布时自定义设置。您可以将任意一个版本设置为当前目录，即表示数据集列表中进入的数据集详情，为此版本的数据集标注信息。针对每一个数据集版本，您可以通过“存储路径”参数，获得此版本对应的Manifest文件格式的数据集。可用于导入数据或难例筛选操作。表格数据集暂不支持切换版本。

AI开发平台MODELARTS 数据准备与处理

AI开发平台MODELARTS-发布ModelArts数据集中的数据版本:数据集版本文件目录结构

AI开发平台MODELARTS 数据准备与处理

云服务器内容精选

数据准备与处理

7*24

备案

专业服务

退订

建议反馈

售前咨询热线