云服务器内容精选

  • 规格限制 除表格类型之外的数据集(如视频、文本、音频等),单个数据集的最大样本数量限制:1000000,最大标签数量限制:10000。 除图片类型之外的数据集(如视频、文本、音频等),单个样本大小限制:5GB。 针对图片类数据集(物体检测、图像分类、图像分割),单个图片大小限制:25MB。 单个manifest文件大小限制:5GB。 文本文件单行大小限制:100KB。 数据集标注结果文件大小限制:100MB。
  • 数据集的类型 当前ModelArts支持如下格式的数据集。 图片:对图像类数据进行处理,支持 .jpg、.png、.jpeg、.bmp四种图像格式,支持用户进行图像分类、物体检测、图像分割类型的标注。 音频:对音频类数据进行处理,支持.wav格式,支持用户进行声音分类、语音内容、语音分割三种类型的标注。 文本:对文本类数据进行处理,支持.txt、.csv格式,支持用户进行文本分类、命名实体、文本三元组三种类型的标注。 视频:对视频类数据进行处理,支持.mp4格式,支持用户进行视频标注。 自由格式:管理的数据可以为任意格式,目前不支持标注,适用于无需标注或开发者自行定义标注的场景。如果您的数据集需存在多种格式数据,或者您的数据格式不符合其他类型数据集时,可选择自由格式的数据集。 表格 表格:适合表格等结构化数据处理。数据格式支持csv。不支持标注,支持对部分表格数据进行预览,但是最多支持100条数据预览。
  • 不同类型数据集支持的功能列表 其中,不同类型的数据集支持不同的功能,如智能标注、团队标注等。详细信息参考表1。 表1 不同类型的数据集支持的功能 数据集类型 标注类型 创建数据集 导入数据 导出数据 发布数据集 修改数据集 管理版本 智能标注 团队标注 自动分组 数据特征 图片 图像分类 支持 支持 支持 支持 支持 支持 支持 支持 支持 支持 物体检测 支持 支持 支持 支持 支持 支持 支持 支持 支持 支持 图像分割 支持 支持 支持 支持 支持 支持 - - 支持 - 音频 声音分类 支持 支持 - 支持 支持 支持 - - - - 语音内容 支持 支持 - 支持 支持 支持 - - - - 语音分割 支持 支持 - 支持 支持 支持 - 支持 - - 文本 文本分类 支持 支持 - 支持 支持 支持 - 支持 - - 命名实体 支持 支持 - 支持 支持 支持 - 支持 - - 文本三元组 支持 支持 - 支持 支持 支持 - 支持 - - 视频 视频 支持 支持 - 支持 支持 支持 - - - - 自由格式 自由格式 支持 - _ 支持 支持 支持 - - - - 表格 表格 支持 支持 - 支持 支持 支持 - - - -
  • 关于数据集版本 针对刚创建的数据集(未发布前),无数据集版本信息,必须执行发布操作后,才能应用于模型开发或训练。 数据集版本,默认按V001、V002递增规则进行命名,您也可以在发布时自定义设置。 您可以将任意一个版本设置为当前目录,即表示数据集列表中进入的数据集详情,为此版本的数据集标注信息。 针对每一个数据集版本,您可以通过“存储路径”参数,获得此版本对应的Manifest文件格式的数据集。可用于导入数据或难例筛选操作。 表格数据集暂不支持切换版本。
  • 数据集版本文件目录结构 由于数据集是基于OBS目录管理的,发布为新版本后,对应的数据集输出位置,也将基于新版本生成目录。 以图像分类为例,数据集发布后,对应OBS路径下生成,其相关文件的目录如下所示。 |-- user-specified-output-path |-- DatasetName-datasetId |-- annotation |-- VersionMame1 |-- VersionMame1.manifest |-- VersionMame2 ... |-- ... 以物体检测为例,如果数据集导入的是Manifest文件,在数据集发布后,其相关文件的目录结构如下。 |-- user-specified-output-path |-- DatasetName-datasetId |-- annotation |-- VersionMame1 |-- VersionMame1.manifest |-- annotation |-- file1.xml |-- VersionMame2 ... |-- ... 以视频标注为例,在数据集发布后,标注结果将标注结果文件(XML)存放在数据集输出目录下。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 |-- user-specified-output-path |-- DatasetName-datasetId |-- annotation |-- VersionMame1 |-- VersionMame1.manifest |-- annotations |-- images |-- videoName1 |-- videoName1.timestamp.xml |-- videoName2 |-- videoName2.timestamp.xml |-- VersionMame2 ... |-- ... 视频标注的关键帧存在数据集的输入目录下。 |-- user-specified-input-path |-- images |-- videoName1 |-- videoName1.timestamp.jpg |-- videoName2 |-- videoName2.timestamp.jpg