检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练作业使用MoXing复制数据较慢,重复打印日志 问题现象 ModelArts训练作业使用MoXing复制数据较慢。 重复打印日志“INFO:root:Listing OBS”。 原因分析 复制数据慢的可能原因如下: 直接从OBS上读数据会造成读数据变成训练的瓶颈,导致迭代缓慢。
批量删除样本 根据样本的ID列表批量删除数据集中的样本。 dataset.delete_samples(samples) 示例代码 批量删除数据集中的样本 from modelarts.session import Session from modelarts.dataset import
导出任务管理 查询导出任务列表 创建导出任务 查询导出任务状态 父主题: 数据管理
否则不需要这个字段。 type String 数据源类型。可选值如下: OBS:数据来源于OBS TASK:数据处理任务 DATASET:数据集 CUSTOM:资源租户调用 version_id String 数据集的版本。 version_name String 数据集的版本名称。 表6 TemplateParam
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新dataset_info.json文件;请务必在dataset_info
从OBS目录导入数据规范说明 导入数据集时,使用存储在OBS的数据时,数据的存储目录以及文件名称需满足ModelArts的规范要求。 当前只有“图像分类”、“物体检测”、“图像分割”、“文本分类”和“声音分类”标注类型支持按标注格式导入。 其中,“表格”类型的数据集,支持从OBS
开发环境(旧版) 创建开发环境实例 查询开发环境实例列表 查询开发环境实例详情 更新开发环境实例信息 删除开发环境实例 管理开发环境实例 父主题: 历史API
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
查询数据集的标注任务列表 查询当前数据集的所有标注任务列表。 dataset.get_label_tasks(is_workforce_task=False, **kwargs) 示例代码 示例一:查询数据集下所有的标注任务,根据标注任务创建时间降序排序。 from modelarts
配置Grafana数据源 在Grafana配置数据源后,即可通过Grafana查看ModelArts的监控数据。 前提条件 已安装Grafana。 配置Grafana数据源 获取Grafana数据源配置代码。 进入AOM管理控制台。 图1 AOM管理控制台 在左侧导航栏中选择“Prometheus监控
检查用于标注的图片数据,确保您的图片数据中,不存在RGBA四通道图片。如果存在四通道图片,智能标注任务将运行失败,因此,请从数据集中删除四通道图片后,再启动智能标注。 启动智能标注作业 登录ModelArts管理控制台,在左侧菜单栏中选择“数据准备 > 数据标注”,进入“数据标注”管理页面。
String 导出数据集版本的格式。 export_dataset_version_name String 导出数据集版本的名称。 export_dest String 数据集导出类型。可选值如下: DIR:导出到OBS(默认值) NEW_DATASET:导出到新数据集 export_new_dataset_name
导入任务管理 查询导入任务列表 创建导入任务 查询导入任务状态 父主题: 数据管理
s的功能,您可以根据经验选择相应的教程。 面向AI开发零基础的用户,您可以使用ModelArts在AI Gallery中预置的模型、算法、数据、Notebook等资产,零代码完成AI建模和应用。 如果您想了解如何使用ModelArts Standard一键部署现有的模型,并在线使
团队标注功能是以团队为单位进行管理,数据集启用团队标注功能时,必须指定一个团队。一个团队可以添加多个成员。新添加的团队,其成员列表为空。您需要根据实际情况添加即将参与标注任务的成员信息。 一个账号最多可添加10个团队。一个团队最多支持添加100个成员,当超过100时,建议分为多个团队进行管理。 如果数据集需要
创建团队标注任务 同一个数据集,支持创建多个团队标注作业,指派给同一团队的不同成员,或者指派给其他标注团队。 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理 >数据集”,打开数据集列表。 在数据集列表中,选择支持团队标注的数据集,单击数据集名称进入数据集概览页。 在数据集概览页页
false:不导入标签 import_folder 否 String 导入后在数据集存储目录下子目录的名称。多次不同导入可以指定同一个子目录,避免相同样本重复导入。注:对表格数据集不可用。 import_origin 否 String 数据来源。可选值如下: obs:OBS桶(默认值) dws:GaussDB(DWS)服务
“数据集输入位置”即原始数据存储的OBS路径。 “数据集输出位置”,指在ModelArts完成数据标注后,执行数据集发布操作后,在此指定路径下,按数据集版本,生成相关目录。包含ModelArts中使用的Manifest文件(包含数据及标注信息)。详细文件说明可参见数据集发布后,相关文件的目录结构说明。
基础设置 中文名称 显示数据集的名称,不可编辑。 许可证 数据集遵循的使用许可协议,根据业务需求选择合适的许可证类型。 语言 选择使用数据集时支持的输入输出语言。 任务类型 选择数据集支持用于什么类型的训练模型。 运行平台 选择数据集额外支持的运行平台。 设置运行平台后,当资产上架后,