企业级AI应用开发专业套件 ModelArts Pro-上传数据集失败如何处理?:视觉套件

时间:2025-02-12 14:52:45

视觉套件

使用视觉套件开发应用时,需要上传图片数据训练模型。

上传的数据集要求如表3所示。

表3 视觉套件数据集要求

工作流

数据集要求

零售商品识别工作流

  • 文件名规范,不能有中文,不能有+、空格、制表符。
  • 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。
  • 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
  • 为保证模型的泛化能力,数据集尽量覆盖所有标签的图片。
  • 基于已设计好的商品标签准备图片数据。每个商品标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个商品标签准备200个以上的数据。
  • 针对未标注数据,要求将图片放在一个目录里,示例如下所示。
    ├─dataset-import-example │      IMG_20180919_114732.jpg │      IMG_20180919_114745.jpg │      IMG_20180919_114945.jpg 
    • 如果导入位置为OBS,用户需具备此OBS路径的读取权限。
    • 只支持JPG、JPEG、PNG、BMP格式的图片。
  • 针对已标注数据,要求用户将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“IMG_20180919_114745.jpg”,那么标注文件的文件名应为“IMG_20180919_114745.xml”

    物体检测的标注文件需要满足PASCAL VOC格式。

    零售商品工作流标注时需要勾勒出商品形状,必须使用多边形标注框。如果标注框坐标超过图片,将无法识别该图片为已标注图片。

更多详情请见准备数据

热轧钢板表面缺陷检测工作流

  • 文件名规范,不能有中文,不能有+、空格、制表符。
  • 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP,且单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。
  • 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
  • 为保证模型的泛化能力,数据集尽量覆盖所有标签的图片。
  • 基于已设计好的热轧钢板表面缺陷标签准备图片数据。每个分类标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个分类标签准备200个以上的数据。
  • 针对未标注数据,要求将图片放在一个目录里,示例如下所示。
    ├─dataset-import-example │      IMG_20180919_114732.jpg │      IMG_20180919_114745.jpg │      IMG_20180919_114945.jpg 
    • 如果导入位置为OBS,用户需具备此OBS路径的读取权限。
    • 只支持JPG、JPEG、PNG、BMP格式的图片。
  • 针对已标注数据,要求用户将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“IMG_20180919_114745.jpg”,那么标注文件的文件名应为“IMG_20180919_114745.xml”

    热轧钢板表面缺陷检测工作流标注时标注框包含缺陷即可,因此建议使用矩形标注框标注图片。如果标注框坐标超过图片,将无法识别该图片为已标注图片。

    物体检测的标注文件需要满足PASCAL VOC格式。

更多详情请见准备数据

云状识别工作流

  • 文件名规范,不能有中文,不能有+、空格、制表符。
  • 保证图片质量,不能有损坏的图片。目前支持的格式包括JPG、JPEG、PNG、BMP。
  • 不要把明显不同的多个任务数据放在同一个数据集内。
  • 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
  • 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。
  • 每一类数据尽量多,尽量均衡。每个分类标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个分类标签准备200个以上的数据。
  • 针对未标注数据,要求将图片放在一个目录里,示例如下所示。
    ├─dataset-import-example │      IMG_20180919_114732.jpg │      IMG_20180919_114745.jpg │      IMG_20180919_114945.jpg 
    • 如果导入位置为OBS,用户需具备此OBS路径的读取权限。
    • 只支持JPG、JPEG、PNG、BMP格式的图片。
  • 针对已标注数据,云状识别工作流仅支持一张图片识别单个标签,支持如下两种数据格式。
    • 相同标签的图片放在一个目录里,并且目录名字即为标签名。当存在多层目录时,则以最后一层目录为标签名。

      示例如下所示,其中“cumulus”“stratus”分别为标签名。

      dataset-import-example ├─cumulus │      10.jpg │      11.jpg │      12.jpg │ └─stratus         1.jpg         2.jpg         3.jpg
    • 当目录下存在对应的txt文件时,以txt文件内容作为图像的标签,优先级高于第一种格式。

      示例如下所示,“import-dir-1”“imort-dir-2”为导入子目录。

      dataset-import-example ├─import-dir-1│      10.jpg│      10.txt    │      11.jpg │      11.txt│      12.jpg │      12.txt└─import-dir-2        1.jpg         1.txt        2.jpg         2.txt

      单标签的标签文件示例,如1.txt文件内容如下所示:

      stratus

      只支持JPG、JPEG、PNG、BMP格式的图片。单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。

刹车盘识别工作流

  • 文件名规范,不能有中文,不能有+、空格、制表符。
  • 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。
  • 不要把明显不同的多个任务数据放在同一个数据集内。
  • 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
  • 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。
  • 每一类数据尽量多,尽量均衡。每个分类标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个分类标签准备200个以上的数据。
  • 针对未标注数据,要求将图片放在一个目录里,示例如下所示。
    ├─dataset-import-example │      IMG_20180919_114732.jpg │      IMG_20180919_114745.jpg │      IMG_20180919_114945.jpg 
    • 如果导入位置为OBS,用户需具备此OBS路径的读取权限。
    • 只支持JPG、JPEG、PNG、BMP格式的图片。
  • 针对已标注数据,刹车盘识别工作流仅支持一张图片识别单个标签,支持如下两种数据格式。
    • 相同标签的图片放在一个目录里,并且目录名字即为标签名。当存在多层目录时,则以最后一层目录为标签名。

      示例如下所示,其中“ventilation”“physical”分别为标签名。

      dataset-import-example ├─ventilation │      10.jpg │      11.jpg │      12.jpg │ └─physical         1.jpg         2.jpg         3.jpg
    • 当目录下存在对应的txt文件时,以txt文件内容作为图像的标签,优先级高于第一种格式。

      示例如下所示,“import-dir-1”“imort-dir-2”为导入子目录。

      dataset-import-example ├─import-dir-1│      10.jpg│      10.txt    │      11.jpg │      11.txt│      12.jpg │      12.txt└─import-dir-2        1.jpg         1.txt        2.jpg         2.txt

      单标签的标签文件示例,如1.txt文件内容如下所示:

      ventilation

      只支持JPG、JPEG、PNG、BMP格式的图片。单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。

无监督车牌检测工作流

  • 文件名规范,不能有中文,不能有+、空格、制表符。
  • 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP,单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。
  • 不要把明显不同的多个任务数据放在同一个数据集内。
  • 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。
  • 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。
  • 数据集样本数应大于100,用于测试的已标注数据应不少于20张,样本数达1万张以上性能更优。
  • 为了准确率,建议数据集中标注数据占总数据量的10%,用于测试模型,其余90%无需标注。
  • 针对未标注数据,要求将图片放在一个目录里,示例如下所示。
    ├─dataset-import-example │      IMG_20180919_114732.jpg │      IMG_20180919_114745.jpg │      IMG_20180919_114945.jpg 

    如果导入位置为OBS,用户需具备此OBS路径的读取权限。

  • 针对已标注数据,要求用户将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“IMG_20180919_114745.jpg”,那么标注文件的文件名应为“IMG_20180919_114745.xml”

    物体检测的标注文件需要满足PASCAL VOC格式。无监督车牌检测工作流标注时标注框需要包含车牌,必须使用矩形标注框。如果标注框坐标超过图片,将无法识别该图片为已标注图片。

更多详情请见准备数据

support.huaweicloud.com/modelartspro_faq/modelartspro_03_0006.html