AI开发平台ModelArts-SFT全参微调训练:Step2 创建SFT全参微调训练任务

时间：2025-02-12 15:14:12

AI开发平台ModelArts

创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

图1 选择镜像

如果镜像使用使用基础镜像中的基础镜像时，训练作业启动命令中输入：

cd /home/ma-user/work/llm_train/AscendSpeed;sh ./scripts/install.sh;sh ./scripts/llama2/0_pl_sft_13b.sh

如果镜像使用E CS 中构建新镜像构建的新镜像时，训练作业启动命令中输入：

cd /home/ma-user/work/llm_train/AscendSpeed;sh ./scripts/llama2/0_pl_sft_13b.sh

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。

图2 开启故障重启

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。

当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台ModelArts-SFT全参微调训练:Step2 创建SFT全参微调训练任务

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

7*24