检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用SDK调测多机分布式训练作业 代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。 代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,仅需修改7和11中的 framework_type参数值即可,例如:MindSpore框架,此处framework_type
入门案例:快速创建一个物体检测的数据集 本节以准备训练物体检测模型的数据为例,介绍如何针对样例数据,进行数据分析、数据标注等操作,完成数据准备工作。在实际业务开发过程中,可以根据业务需求选择数据管理的一种或多种功能完成数据准备。此次操作分为以下流程: 准备工作 创建数据集 数据分析
修复Standard专属资源池故障节点 Standard专属资源池支持对故障节点进行修复操作,目前提供了替换节点、高可用冗余节点、重置节点和重启节点等方式。华为云技术支持在故障定位和性能诊断时,部分运维操作需要用户授权才可进行,本章节同时也介绍了如何进行授权操作。 故障节点处理方式
配置节点参数控制分支执行 功能介绍 支持单节点通过参数配置或者获取训练输出的metric指标信息来决定执行是否跳过,同时可以基于此能力完成对执行流程的控制。 应用场景 主要用于存在多分支选择执行的复杂场景,在每次启动执行后需要根据相关配置信息决定哪些分支需要执行,哪些分支需要跳过,
创建Workflow训练作业节点 功能介绍 该节点通过对算法、输入、输出的定义,实现ModelArts作业管理的能力。主要用于数据处理、模型训练、模型评估等场景。主要应用场景如下: 当需要对图像进行增强,对语音进行除噪等操作时,可以使用该节点进行数据的预处理。 对于一些物体检测,图像分类等模型场景