-
训练作业自定义镜像规范 - AI开发平台ModelArts
自定义镜像的大小推荐15GB以内,最大不要超过资源池的容器引擎空间大小的一半。镜像过大会直接影响训练作业的启动时间。 ModelArts公共资源池的容器引擎空间为50G,专属资源池的容器引擎空间的默认为50G,支持在创建专属资源池时自定义容器引擎空间。 自定义镜像的默认用户必须为“uid”为“1000”的用户。
-
准备数据 - AI开发平台ModelArts
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据 本教程使用到的训练数据集是Alpaca数据集。Alpaca是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型
-
如何在AOM上查看ModelArts所有监控指标? - AI开发平台ModelArts
该指标用于统计每秒从磁盘读出的数据量。只考虑被容器使用的数据盘。 千字节/秒(Kilobytes/Second) ≥0 磁盘写入速率 ma_node_disk_write_rate_kilobytes_seconds 该指标用于统计每秒写入磁盘的数据量。只考虑被容器使用的数据盘。 千字节/秒(Kilobytes/Second)
-
准备数据 - AI开发平台ModelArts
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据 本教程使用到的训练数据集是Alpaca数据集。Alpaca是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型
-
数据处理 - AI开发平台ModelArts
数据处理 修改列名 数据集列合并 数据集聚合 数据集行合并 数据集行过滤 数据集连接 数据集抽样 数据集拆分 数据集行去重 执行spark sql脚本 替换 缺失值填充 缺省值填充 修改列数据类型 数据集选择列 设置元数据 数据集按列排序 增加序列号 普通表转KV表 KV表转普通表
-
数据标注 - AI开发平台ModelArts
人工标注:用户创建单人标注作业,对数据进行手工标注。 智能标注:在标注一定量的数据情况下,用户可以通过启动智能标注任务对数据进行自动标注,提高标注的效率。 团队标注:对于大批量的数据,用户可以通过创建团队标注作业,进行多人协同标注。 关于数据标注的详细信息,请参考数据标注。
-
训练作业进程被kill - AI开发平台ModelArts
在开发环境(notebook)申请相同规格的开发环境实例。 在notebook调试用户代码,并找出问题的代码段。 通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。, 通过训练日志排查问题 通过日志判断出问题的代码范围。 修改代码,在问题代码段添加打印,输出更详细的日志信息。 再次运行作业,判断出问题的代码段。
-
查询训练作业列表 - AI开发平台ModelArts
Integer 指定每一页展示作业的总量,默认为10,“per_page”可选的范围为[1,1000]。 page 否 Integer 指定要查询页的索引,默认为1。“page”可选的范围为[1,65535]。 sortBy 否 String 指定查询的排序方式,默认是作业名称“job_na
-
准备数据 - AI开发平台ModelArts
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据 本教程使用到的训练数据集是Alpaca数据集。Alpaca是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型
-
OBS导入数据简介 - AI开发平台ModelArts
支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分类 物体检测 支持 可以导入未标注或已标注数据 已标注数据格式规范:物体检测 支持 可以导入未标注或已标注数据 已标注数据格式规范:物体检测 图像分割 支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分割 支持 可以导入未标注或已标注数据
-
准备数据 - AI开发平台ModelArts
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据 本教程使用到的训练数据集是Alpaca数据集。Alpaca是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型
-
数据准备简介 - AI开发平台ModelArts
提供基于样本和标注结果进行特征分析,帮助用户整体了解数据的质量。 提升用户数据准备的效率。 提供数据版本管理能力,帮助用户提升数据管理的效率。 提供数据校验、数据选择、数据清洗等多种数据处理算子,帮助用户快速处理数据。 提供交互式标注、智能标注等能力,提升用户数据标注的效率。 提供团队标注以及团队
-
查询AI应用列表 - AI开发平台ModelArts
building_failed: 构建失败 description 否 String 描述信息,可支持模糊匹配。 offset 否 Integer 指定要查询页的索引,默认为“0”。 limit 否 Integer 指定每一页返回的最大条目数,默认为“1000”。 sort_by 否 String 指定排序字段,可选值为:
-
数据校验 - AI开发平台ModelArts
比例裁剪。单位为px。 默认值 -1 表示不做裁剪。 输入要求 算子输入分为两种,“数据集”或“OBS目录”。 选择“数据集”,请从下拉框中选择ModelArts中管理的数据集及其版本。要求数据集类型与您在本任务中选择的场景类别一致。 选择“OBS目录”,存放结构又分两种情况,“仅包含图片”或“包含图片和标注信息”。
-
同步数据集 - AI开发平台ModelArts
同步数据集 功能介绍 从数据集输入位置同步数据至数据集,包含样本及标注信息。文本类数据集不支持此操作。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v
-
从本地上传数据 - AI开发平台ModelArts
不超过5GB。 不同类型的数据集,导入操作界面的示意图存在区别,请参考界面信息了解当前类型数据集的示意图。当前操作指导以图像分类的数据集为例。 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理 > 数据集”,进入“数据集”管理页面。 在数据集所在行,单击操作列的“导入”。
-
数据接入简介 - AI开发平台ModelArts
数据。 创建完数据集后,在数据集列表页面的操作栏单击“导入”,导入数据。 图1 在数据集列表页导入数据 在数据集列表页面,单击某个数据集的名称,进入数据集详情页中,单击“导入>导入”,导入数据。 图2 在数据集详情页中导入数据 在数据集列表页面,单击某个数据集的名称,进入数据集详
-
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts
该指标用于统计每秒从磁盘读出的数据量。只考虑被容器使用的数据盘。 千字节/秒(Kilobytes/Second) ≥0 磁盘写入速率 ma_node_disk_write_rate_kilobytes_seconds 该指标用于统计每秒写入磁盘的数据量。只考虑被容器使用的数据盘。 千字节/秒(Kilobytes/Second)
-
使用MoXing复制数据报错 - AI开发平台ModelArts
可能是空间不足导致,可在代码中使用如下命令查看磁盘大小。 os.system('df -hT') 磁盘空间满足,请执行5。 磁盘空间不足,请您使用GPU资源。 如果是在Notebook使用MoXing复制数据不成功,可以在Terminal界面中使用df -hT命令查看空间大小,排
-
数据集聚合 - AI开发平台ModelArts
数据集聚合 概述 对数据集进行各种聚合运算,包括求平均值、最大值、最小值、方差,对某些列执行分组操作。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 数据集 参数说明