-
同步数据集 - AI开发平台ModelArts
同步数据集 功能介绍 从数据集输入位置同步数据至数据集,包含样本及标注信息。文本类数据集不支持此操作。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v
-
数据集聚合 - AI开发平台ModelArts
数据集聚合 概述 对数据集进行各种聚合运算,包括求平均值、最大值、最小值、方差,对某些列执行分组操作。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 数据集 参数说明
-
数据接入 - AI开发平台ModelArts
数据接入 数据接入简介 从AI Gallery下载数据集 从OBS导入数据 从DLI导入数据 从MRS导入数据 从DWS导入数据 从本地上传数据
-
数据导出 - AI开发平台ModelArts
数据导出 数据导出简介 导出数据为新数据集 导出数据到OBS 导出到AI Gallery
-
数据发布 - AI开发平台ModelArts
数据发布 数据发布简介 发布数据版本 管理数据版本
-
导入AI应用对于镜像大小限制 - AI开发平台ModelArts
用户在导入AI应用后,部署服务时,提示磁盘空间不足:“No space left on device”。 原因分析 ModelArts部署使用的是容器化部署,容器运行时有空间大小限制,当用户的模型文件或者其他自定义文件,系统文件超过Docker size大小时,会提示镜像内空间不足。 处理方法 公共资源池容器Docker
-
数据导出简介 - AI开发平台ModelArts
数据导出简介 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,导出成新的数据集,或者将数据导出到指定的OBS目录下。用户可以通过任务历史查看数据导出的历史记录。 目前只有“图像分类”、“物体检测”、“图像分割”类型的数据集支持导出功能。 “图像分类”只支持导出txt格式的标注文件。
-
数据去冗余 - AI开发平台ModelArts
数据去冗余 RRD算子概述 可以依据用户设置的比例去除差异最大的数据。 图1 RRD效果图 表1 高级参数说明 参数名 是否必选 默认值 参数说明 sample_ratio 否 0.9 数据留下的百分比。取值范围为0~1。例如0.9表示保留百分之90的原数据。 n_clusters
-
创建数据集 - AI开发平台ModelArts
否 Boolean 是否导入数据,此参数当前仅表格数据集使用。可选值如下: true:创建数据集时导入数据 false:创建数据集时不导入数据(默认值) label_format 否 LabelFormat object 标签格式信息,此参数仅文本类数据集使用。 labels 否 Array
-
数据处理 - AI开发平台ModelArts
意义的数据。 ModelArts提供了四种基本的数据处理功能: 数据校验:帮助AI开发者提前识别数据中的不合法数据,如已损坏数据、不合格数据等,有效防止数据噪声造成的算法精度下降或者训练失败问题。 数据清洗:在数据校验的基础上,对数据进行一致性检查,处理一些无效值。 数据选择:在
-
读取parquet数据 - AI开发平台ModelArts
读取parquet数据 概述 读取parquet格式的数据。 输入 无 输出 数据集 参数说明 参数 参数说明 input_file_path parquet数据文件所在的路径 样例 params = { "input_file_path": "" # @param {
-
管理数据版本 - AI开发平台ModelArts
管理数据版本 在数据准备的过程中,用户可以将数据发布成多个版本对数据集进行管理。针对已发布生成的数据集版本,用户可以通过查看数据集的演进过程、切换版本、删除版本等操作,对数据集进行管理。 查看数据集演进过程 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理 > 数据集”,进入“数据集”管理页面。
-
数据发布简介 - AI开发平台ModelArts
数据发布简介 ModelArts在数据准备过程中,针对同一数据源的数据,对不同时间处理或标注后的数据,按照版本进行区分方便后续模型构建和开发时选择对应的数据集版本进行使用。 关于数据集版本 针对刚创建的数据集(未发布前),无数据集版本信息,必须执行发布操作后,才能应用于模型开发或训练。
-
数据保护技术 - AI开发平台ModelArts
数据保护技术 ModelArts通过多种数据保护手段和特性,保障存储在ModelArts中的数据安全可靠。 数据保护手段 说明 静态数据保护 对于AI Gallery收集的用户个人信息中的敏感信息,如用户邮箱和手机号,AI Gallery在数据库中做了加密处理。其中,加密算法采用了国际通用的AES算法。
-
OBS目录导入数据规范说明 - AI开发平台ModelArts
OBS目录导入数据规范说明 导入数据集时,使用存储在OBS的数据时,数据的存储目录以及文件名称需满足ModelArts的规范要求。 当前只有“图像分类”、“物体检测”、“图像分割”、“文本分类”和“声音分类”标注类型支持按标注格式导入。 其中,“表格”类型的数据集,支持从OBS、
-
数据去重 - AI开发平台ModelArts
do_validation 否 True 是否进行数据校验,可填True或者False。表示数据去重前需要进行数据校验,否则只进行数据去重。 输入要求 算子输入分为两种,“数据集”或“OBS目录”。 选择“数据集”,请从下拉框中选择ModelArts中管理的数据集及其版本。要求数据集类型与您在本任务中选择的场景类别一致。
-
数据标注 - AI开发平台ModelArts
数据标注 文本分类项目创建完成后,将自动跳转至“自动学习 > 数据标注”页面,界面默认“已标注”页签。当选择的数据集已存在标注好的数据时,将自动展示已标注数据。您也可以单击“未标注”页签,切换至“未标注”页面,展示数据集的输入目录中的未标注数据。 文本分类的数据标注 在“标注对象
-
从DLI导入数据 - AI开发平台ModelArts
从DLI导入数据 表格数据集支持从DLI导入数据。 从DLI导入数据,用户需要选择DLI队列、数据库和表名称。所选择的表的schema(列名和类型)需与数据集一致,支持自动获取所选择表的schema。DLI的详细功能说明,请参考DLI用户指南。 图1 DLI导入数据 队列名称:系
-
数据标注 - AI开发平台ModelArts
数据集校验环节不通过,影响您的模型训练。 项目创建完成后,将会自动跳转至新版自动学习页面,并开始运行。单击“数据标注”节点,当状态变为“等待操作”时,需要手动进行确认数据集中的数据标注情况,也可以对数据集中的数据进行标签的修改,数据的增加或删减。 图1 数据标注节点状态 图片标注
-
旧版数据集中的数据是否会被清理? - AI开发平台ModelArts
旧版数据集中的数据是否会被清理? 旧版数据集中创建的数据不会被清理,旧版数据集中会自动关联一个数据标注任务。 但是在新版数据集中创建的数据,在旧版的数据集列表不会展示。 父主题: 数据管理(旧版)