检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
预训练 前提条件 已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。 Step1 创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。
删除训练作业 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式一:根据指定的job_id删除。
调用获取训练作业支持的公共规格接口获取训练作业支持的资源规格。 调用获取训练作业支持的AI预置框架接口查看训练作业支持的引擎类型和版本。 调用创建算法接口创建一个算法,记录算法id。 调用创建训练作业接口使用刚创建的算法返回的uuid创建一个训练作业,记录训练作业id。
是否支持图像分割任务的训练? 支持。您可以使用以下三种方式实现图像分割任务的训练。 您可以在AI Gallery订阅相关图像分割任务算法,并使用订阅算法完成训练。 如果您在本地使用ModelArts支持的常用框架完成了训练脚本,可以使用自定义脚本创建训练作业。
训练作业运行失败 训练作业运行失败排查指导 训练作业运行失败,出现NCCL报错 自定义镜像训练作业失败定位思路 使用自定义镜像创建的训练作业一直处于运行中 使用自定义镜像创建训练作业找不到启动文件 训练作业的监控内存指标持续升高直至作业失败 订阅算法物体检测YOLOv3_ResNet18
可能原因是跨区域算法同步或者创建共享存储超时 训练作业已排队,正在等待资源分配 训练作业排队失败 训练作业开始运行 训练作业运行成功 训练作业运行失败 训练作业被抢占 系统检测到您的作业疑似卡死,请及时前往作业详情界面查看并处理 训练作业已重启 训练作业已被手动终止 训练作业已被终止
请通过查询预置算法接口获取model_id。填入model_id后app_url与boot_file_url和engine_id无需填写。 train_url 是 String 训练作业的输出文件OBS路径URL,默认为空,如:“/bucket/trainUrl/”。
父主题: 训练管理
训练作业常用文件路径是什么? 训练环境的当前目录以及代码目录在容器的位置一般通过环境变量${MA_JOB_DIR}读取,${MA_JOB_DIR}变量对应的实际值是/home/ma-user/modelarts/user-job-dir。 父主题: 编写训练代码
对于ChatGLMv3-6B和Qwen系列模型,还需要手动修改tokenizer文件,具体请参见训练tokenizer文件说明。 Step2 创建预训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。
Standard模型训练 使用ModelArts Standard自定义算法实现手写数字识别 基于ModelArts Standard运行GPU训练作业
删除训练作业版本 功能介绍 删除训练作业一个版本。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。
自定义镜像的制作要求用户对容器相关知识有比较深刻的了解,除非订阅算法和预置框架无法满足需求,否则不推荐使用。自定义镜像需上传至容器镜像服务(SWR),才能用于ModelArts Standard上训练。
表1 创建训练作业的配置说明 参数名称 说明 “创建方式” 选择“自定义算法”。 “启动方式” 选择“自定义”。 “镜像” 选择用于训练的自定义镜像。 “代码目录” 执行本次训练作业所需的代码目录。
发布算法工程服务 如果当前算法工程操作流处理效果比较好,可以得到比较优质的训练数据,可以将当前的算法工程发布成服务。支持复用此服务对其他数据进行相同的特征操作。 在JupyterLab环境编辑界面,单击界面右上角的图标。
如何在训练中加载部分训练好的参数? 在训练作业时,需要从预训练的模型中加载部分参数,初始化当前模型。请您通过如下方式加载: 通过如下代码,您可以查看所有的参数。
ModelArts训练好后的模型如何获取? 使用自动学习产生的模型只能在ModelArts上部署上线,无法下载至本地使用。 使用自定义算法或者订阅算法训练生成的模型,会存储至用户指定的OBS路径中,供用户下载。 父主题: 功能咨询
训练作业的启动文件如何获取训练作业中的参数? 训练作业参数有两种来源,包括后台自动生成的参数和用户手动输入的参数。
父主题: 训练作业
对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型,还需要手动修改训练参数和tokenizer文件,具体请参见训练tokenizer文件说明。 Step2 创建预训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。