-
数据标注简介 - AI开发平台ModelArts
人工标注:用户创建单人标注作业,对数据进行手工标注。 智能标注:在标注一定量的数据情况下,用户可以通过启动智能标注任务对数据进行自动标注,提高标注的效率。 团队标注:对于大批量的数据,用户可以通过创建团队标注作业,进行多人协同标注。 人工标注 对于不同类型的数据,用户可以选择不同的标注类型。当前ModelArts支持如下类型的标注作业:
-
创建数据集 - AI开发平台ModelArts
中选择“数据管理 > 数据集”,进入数据集管理页面。 单击“创建数据集”,进入“创建数据集”页面,根据数据类型以及数据标注要求,选择创建表格类型的数据集。填写数据集基本信息。 图4 表格类型的参数 名称:数据集的名称,可自定义您的数据集。 描述:该数据集的详情信息。 数据类型:根据实际需求,选择对应的数据类型。
-
可以两个账号同时进行一个数据集的标注吗? - AI开发平台ModelArts
可以两个账号同时进行一个数据集的标注吗? 可以多人同时标注,但多人同时对同一张图片标注的话,只会以最后一个保存的人的标注结果为最终标注结果。建议轮流标注并及时保存标注结果。 父主题: 数据管理(旧版)
-
数据集简介 - AI开发平台ModelArts
发者自行定义标注的场景。如果您的数据集需存在多种格式数据,或者您的数据格式不符合其他类型数据集时,可选择自由格式的数据集。 表格 表格:适合表格等结构化数据处理。数据格式支持csv。不支持标注,支持对部分表格数据进行预览,但是最多支持100条数据预览。 不同类型数据集支持的功能列表
-
单机多卡数据并行-DataParallel(DP) - AI开发平台ModelArts
单机多卡数据并行-DataParallel(DP) 本章节介绍基于PyTorch引擎的单机多卡数据并行训练。 MindSpore引擎的分布式训练参见MindSpore官网。 训练流程简述 单机多卡数据并行训练流程介绍如下: 将模型复制到多个GPU上 将一个Batch的数据均分到每一个GPU上
-
数据标注 - AI开发平台ModelArts
数据标注 项目创建完成后,将会自动跳转至新版自动学习页面,并开始运行,当数据标注节点的状态变为“等待操作”时,需要手动进行确认数据集中的数据标注情况,也可以对数据集中的数据进行标签的修改,数据的增加或删减。 图1 数据标注节点状态 双击“数据标注”节点,单击实例详情按钮,打开数据标注页面。
-
运行应用样例 - AI开发平台ModelArts
运行应用样例 本样例中图片行人检测样例包含了两种运行模式,一种是直接读取本地图片,图片的检测结果将会保存到当前工程目录;另外一种是通过建立http服务的方式获取用户的请求,用户发送图片请求之后将会返回该图片中行人检测的结果。 运行行人检测应用(读取本地图片) 编译运行AI应用 在“
-
标注多个标签,是否可针对一个标签进行识别? - AI开发平台ModelArts
标注多个标签,是否可针对一个标签进行识别? 数据标注时若标注多个标签进行训练而成的模型,最后部署成在线服务之后也是对标注的多个标签去进行识别的。如果只需要快速识别一种标签,建议单独训练识别此标签的模型使用,并选择较大的部署上线的规格也可以提供识别速度。 父主题: 数据管理
-
创建数据集 - AI开发平台ModelArts
创建数据集 DataBlock是AI开发套件数据集的统一抽象,针对不同的套件场景定义了不同的DataBlock类,以目标检测为例,目前支持加载coco格式的数据集加载模块COCODetDataBlock。 voc以及yolo格式的数据集可以通过COCOConverter进行数据集转化,请参考数据集转换。
-
数据集聚合 - AI开发平台ModelArts
数据集聚合 概述 对数据集进行各种聚合运算,包括求平均值、最大值、最小值、方差,对某些列执行分组操作。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 数据集 参数说明
-
多机多卡数据并行-DistributedDataParallel(DDP) - AI开发平台ModelArts
算,具体的原理此处不再赘述。大致的流程如下: 初始化进程组。 创建分布式并行模型,每个进程都会有相同的模型和参数。 创建数据分发Sampler,使每个进程加载一个mini batch中不同部分的数据。 网络中相邻参数分桶,一般为神经网络模型中需要进行参数更新的每一层网络。 每个进程前向传播并各自计算梯度。
-
物体检测或图像分类项目支持对哪些格式的图片进行标注和训练? - AI开发平台ModelArts
物体检测或图像分类项目支持对哪些格式的图片进行标注和训练? 图片格式支持JPG、JPEG、PNG、BMP。 父主题: 准备数据
-
发布数据集 - AI开发平台ModelArts
发布数据集 ModelArts在数据集管理过程中,针对同一个数据源,对不同时间标注后的数据,按版本进行区分,方便后续模型构建和开发过程中,选择对应的数据集版本进行使用。数据标注完成后,您可以将数据集当前状态进行发布,生成一个新的数据集版本。 关于数据集版本 针对刚创建的数据集(未
-
数据集行去重 - AI开发平台ModelArts
数据集行去重 概述 “去重”节点用于删除数据集中的重复行(假如有两行相同,保留其中一行)。 对于那些不允许有重复记录输入的节点算法,可以先使用该算法做预处理。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象
-
数据集如何切分 - AI开发平台ModelArts
数据集如何切分 在发布数据集时,仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。 一般默认不启用该功能。启用后,需设置对应的训练验证比例。 输入“训练集比例”,数值只能是0~1区间内的数。设置好“训练集比例”后,“验证集比例”自动填充。“训练集比例”加“验证集比例”等于1。
-
保存Notebook镜像环境 - AI开发平台ModelArts
保存Notebook镜像环境 通过预置的镜像创建Notebook实例,在基础镜像上安装对应的自定义软件和依赖,在管理页面上进行操作,进而完成将运行的实例环境以容器镜像的方式保存下来。镜像保存后,默认工作目录是根目录“/”路径。 保存的镜像中,安装的依赖包不丢失,持久化存储的部分(home/ma-
-
数据管理简介 - AI开发平台ModelArts
视频标注 针对不同类型的数据集,对数据进行标注。“自由格式”和“表格”类型的数据集暂不支持数据标注。 导入操作 将数据导入数据集中。 导出数据 支持将部分数据导出为新的数据集或者将数据导出至OBS。同时支持对任务历史进行查看和管理。 修改数据集 修改数据集的基本信息。如数据集名称、描述或标签等信息。
-
创建数据集 - AI开发平台ModelArts
创建数据集 在ModelArts进行数据准备,首先需要先创建一个数据集,后续的操作如数据导入、数据分析、数据标注等,都是基于数据集来进行的。 数据集简介 创建数据集 修改数据集
-
使用Notebook进行代码调试 - AI开发平台ModelArts
使用Notebook进行代码调试 由于Notebook的/cache目录只能支持500G的存储,超过后会导致实例重启,ImageNet数据集大小超过该限制,因此建议用线下资源调试、或用小批量数据集在Notebook调试(Notebook调试方法与使用Notebook进行代码调试、使用Notebook进行代码调试相同)。
-
数据标注 - AI开发平台ModelArts
人工标注:用户创建单人标注作业,对数据进行手工标注。 智能标注:在标注一定量的数据情况下,用户可以通过启动智能标注任务对数据进行自动标注,提高标注的效率。 团队标注:对于大批量的数据,用户可以通过创建团队标注作业,进行多人协同标注。 关于数据标注的详细信息,请参考数据标注。