检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 场景描述 本案例介绍如何在Snt9B上进行分布式训练任务,其中Cluster资源池已经默认安装volcano调度器,训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型,详细代码和指导可参考Bert。
训练作业重调度 当训练作业发生故障恢复时(例如进程级恢复、POD级重调度、JOB级重调度等),作业详情页面中会出现“故障恢复详情”页签,里面记录了训练作业的启停情况。 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。
标注任务管理 创建标注任务 查询数据集的标注任务列表 查询标注任务详情 父主题: 数据管理
on_failure String 定时调度策略中的标记,失败时触发。 on_running String 定时调度策略中的标记,running时触发。 请求示例 创建Workflow定时调度。设置类型为“time”,动作为“run”,调度策略on_failure为“retry”
查询标注任务详情 查询标注任务的详细信息。 datset.get_label_task_info(task_id=None) 示例代码 查询标注任务的详情。 task_info = dataset.get_label_task_info(task_id="xs9ZKzLluKzccQfsyi2")
WorkflowSchedulePolicies 参数 参数类型 描述 on_failure String 定时调度策略中的标记,失败时触发。 on_running String 定时调度策略中的标记,running时触发。 请求示例 查询调度信息 GET https://{endpoint}/v2/{project
删除工作流定时调度信息 功能介绍 删除工作流调度信息。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/
查询数据集的标注任务列表 查询当前数据集的所有标注任务列表。 dataset.get_label_tasks(is_workforce_task=False, **kwargs) 示例代码 示例一:查询数据集下所有的标注任务,根据标注任务创建时间降序排序。 from modelarts
WorkflowSchedulePolicies 参数 参数类型 描述 on_failure String 定时调度策略中的标记,失败时触发。 on_running String 定时调度策略中的标记,running时触发。 请求示例 更新调度信息 PUT https://{endpoint}/v2/{project
分布式模型训练 分布式训练功能介绍 创建单机多卡的分布式训练(DataParallel) 创建多机多卡的分布式训练(DistributedDataParallel) 示例:创建DDP分布式训练(PyTorch+GPU) 示例:创建DDP分布式训练(PyTorch+NPU) 父主题:
本案例介绍如何在ModelArts Lite场景下使用ranktable路由规划完成Pytorch NPU分布式训练任务,训练任务默认使用Volcano job形式下发到Lite资源池集群。 图1 任务示意图 约束与限制 该功能只支持贵阳一区域,如果要在其他区域使用请联系技术支持。 ModelArts
创建标注任务 基于数据集创建标注任务。 dataset.create_label_task(self, task_name=None, task_type=None, **kwargs) 示例代码 示例一:基于图像类型的数据集创建物体检测标注任务。 from modelarts.session
查询导入任务状态 根据任务ID查询数据集导入任务的状态和详情。 dataset.get_import_task_info(task_id) 示例代码 查询数据集导入任务的详情 from modelarts.session import Session from modelarts
成训练任务 相关章节 创建单机多卡的分布式训练(DataParallel):介绍单机多卡数据并行分布式训练原理和代码改造点。 创建多机多卡的分布式训练(DistributedDataParallel):介绍多机多卡数据并行分布式训练原理和代码改造点。 示例:创建DDP分布式训练(
查询导出任务状态 根据任务ID查询数据集导出任务的状态和详情。 dataset.get_export_task_info(task_id) 示例代码 查询数据集导出任务状态 from modelarts.session import Session from modelarts.dataset
查询导入任务列表 查询数据集导入任务列表。 dataset.list_import_tasks() 示例代码 查询数据集导入任务列表 from modelarts.session import Session from modelarts.dataset import Dataset
创建导入任务 支持从OBS中导入新的数据,导入方式包括目录导入和Manifest文件导入。 dataset.import_data(path=None, anntation_config=None, **kwargs) 不同类型的数据集支持的导入方式如表1所示。 表1 不同数据集支持的导入方式
启动智能任务 功能介绍 启动智能任务,支持启动“智能标注”和“自动分组”两大类智能任务。可通过指定请求体中的“task_type”参数来启动某类任务。数据路径或工作路径位于KMS加密桶的数据集,不支持启动主动学习和自动分组任务,支持预标注任务。 “智能标注”是指基于当前标注阶段的
创建导出任务 将当前数据集的样本导出到指定的OBS路径下。仅支持图像分类、物体检测、图像分割和自由格式数据集。 dataset.export_data(path) 示例代码 导出数据集到OBS目录 from modelarts.session import Session from
查询导出任务列表 查询数据集导出任务列表。 dataset.list_export_tasks() 示例代码 查询数据集导出任务列表 from modelarts.session import Session from modelarts.dataset import Dataset