AI开发平台MODELARTS-预训练:Step2 创建预训练任务
Step2 创建预训练任务
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入:
cd /home/ma-user/work/llm_train/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/llama2/0_pl_pretrain_13b.sh
如果镜像使用E CS 中构建新镜像构建的新镜像时,训练作业启动命令中输入:
cd /home/ma-user/work/llm_train/AscendSpeed; sh ./scripts/llama2/0_pl_pretrain_13b.sh
创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。
断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint继续训练。
当训练作业发生故障中断本次作业时,代码可自动从训练中断的位置继续训练,加载中断生成的checkpoint,中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts分布式训练_分布式训练介绍_分布式调测
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- AI训练加速存储_高性能数据存储_AI数据存储内存不足怎么办
- ModelArts模型训练_模型训练简介_如何训练模型
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts是什么_AI开发平台_ModelArts功能
- ModelArts数据管理_数据管理功能简介_数据集管理
- ModelArts自定义镜像_自定义镜像简介_如何使用自定义镜像
- 华为云盘古大模型_华为云AI大模型_盘古人工智能