检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 tags 是 Array of TmsTag objects TMS标签列表。
node_count Integer 训练作业选择的资源副本数。 pool_id String 训练作业选择的资源池ID。 flavor_detail FlavorDetail object 训练作业、算法的规格信息(该字段只有公共资源池存在)。
原因:Moxing在进行文件复制时,未找到train_data_obs目录。 处理建议:修改train_data_obs目录为正确地址,重新启动训练作业。 另外在Moxing下载OBS对象过程中,不要删除相应OBS目录下的对象,否则Moxing在下载到被删除的对象时会下载失败。
启动命令: cd ${MA_JOB_DIR}/demo && python main.py -a resnet50 -b 128 --epochs 5 dog_cat_1w/ 此处的“demo”为用户自定义的OBS存放代码路径的最后一级目录,可以根据实际修改。
训练作业的监控内存指标持续升高直至作业失败 问题现象 训练作业的“状态”为“运行失败”。 原因分析 训练作业的监控内存指标持续升高,导致最后训练作业失败。 处理步骤 查询训练作业的日志和监控信息,是否存在明确的OOM报错信息。 是,训练作业的日志里存在OOM报错,执行2。
查询训练作业版本列表 功能介绍 根据作业ID查看指定的训练作业版本。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions 参数说明如表1所示。
RUN_TYPE pretrain 表示训练类型。可选择值:[pretrain, sft, lora]。
y_train, epochs=5) model.save(os.path.join(args.train_url, 'model')) 父主题: 准备模型训练代码
调试与训练 单机单卡 单机多卡 多机多卡 父主题: 专属资源池训练
python ${MA_JOB_DIR}/demo-code/train.py 如果训练启动脚本用的是sh文件,例如“main.sh”,则启动命令如下所示。
训练脚本说明 训练启动脚本说明和参数配置 训练数据集预处理说明 训练权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.907)
qwen2.5-7b-sft-4096-lora-313T-20241028_164746-0.txt,打印吞吐值及训练参数 qwen2.5-7b-sft-4096-lora-313T-20241028_164746-npu_info-0.txt,打印训练过程中AICORE利用率
重建训练作业 当对创建的训练作业不满意时,您可以单击操作列的重建,重新创建训练作业。在重创训练作业页面,会自动填入上一次训练作业设置的参数,您仅需在原来的基础上进行修改即可重新创建训练作业。
常用框架指使用ModelArts训练管理中支持的常用AI引擎,当前支持的引擎列表请参见ModelArts支持的预置镜像列表。 如果您使用的AI引擎为支持列表之外的,建议使用自定义镜像的方式创建训练作业。 AI Engine 选择代码使用的AI引擎及其版本。
训练的权重转换说明 以llama2-13b举例,使用训练作业运行0_pl_pretrain_13b.sh脚本。脚本同样还会检查是否已经完成权重转换的过程。 如果已完成权重转换,则直接执行预训练任务。
训练作业失败,如何使用开发环境调试训练代码? 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
node_count Integer 训练作业选择的资源副本数。 pool_id String 训练作业选择的资源池ID。 flavor_detail FlavorDetail object 训练作业、算法的规格信息(该字段只有公共资源池存在)。
使用VS Code创建并调试训练作业 由于AI开发者会使用VS Code工具开发算法或模型,为方便快速将本地代码提交到ModelArts的训练环境、贴近本地开发习惯地编写启动命令,ModelArts提供了一个训练作业场景下的IDE插件ModelArts-HuaweiCloud,用户通过简易的操作
管理训练容器环境变量 什么是环境变量 本章节展示了训练容器环境中预置的环境变量,方便用户查看,主要包括以下类型。
train_url 否 String 训练作业的输出文件OBS路径URL,默认为空,如“/usr/train/”。 log_url 否 String 训练作业的日志OBS输出路径URL,默认为空。如:“/usr/train/”。