AI开发平台MODELARTS-断点续训练:断点续训练操作过程

时间:2024-04-30 18:09:31

断点续训练操作过程

llama2-13b的断点续训脚本retrain-llama2-13b.sh,存放在“AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/scripts/llama2”目录下。

  1. 执行命令如下,进入AscendSpeed代码目录。
    cd ..  #退出当前目录
    cd /home/ma-user/ws/AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/  #进入/home/ma-user/ws/AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/目录
  2. 执行如下命令修改Llama2-13b的断点续训练脚本。
    vim scripts/llama2/retrain-llama2-13b.sh

    断点续训练参数配置如下:

    # data args
    PWD=`pwd`
    datasets_PATH=/home/ma-user/ws/datasets/alpaca/llama2-13B/alpaca_text_document   #训练数据输入路径,不加文件类型后缀
    TOKENIZER_PATH=/home/ma-user/ws/tokenizers  #TOKENIZER存放路径
    SAVE_PATH=$PWD/ckpt                           #训练过程文件保存路径,包括日志
    SAVE_CKPT_PATH=${SAVE_PATH}/ckpt-llama2-13b   #训练ckpt保存地址
    MODEL_PATH=${SAVE_PATH}/ckpt-llama2-13b   #预训练后的模型生成路径,断点续训时必须要有此参数。
    # megatron args
    TP=8
    PP=1
    SEED=1234
    RUN_TYPE=retrain   #表示脚本运行类型是断点续训
    . .scripts/llama2/llama2.sh
  3. 修改完后,保存退出。
    :wq
  4. 在AscendSpeed代码目录下执行断点续训练脚本。
    bash scripts/llama2/retrain-llama2-13b.sh
    图1 保存的ckpt
  5. 可以参考查看日志和性能操作,查看断点续训练日志和性能。
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1550.html