AI开发平台MODELARTS-GPT-2基于Server适配PyTorch GPU的训练推理指导:步骤3 单机多卡训练

时间:2024-11-08 16:58:59

步骤3 单机多卡训练

和单机单卡训练相比, 单机多卡训练只需在预训练脚本中设置多卡参数相关即可, 其余步骤与单机单卡相同。

  1. 当前选择GPU裸金属服务器是8卡, 因此需要调整如下参数:

    GPUS_PER_NODE=8

  2. 调整全局批处理大小(global batch size)、微批处理大小(micro batch size)、数据并行大小(data_parallel_size)参数。三者的关系为:“global_batch_size”可被“micro_batch_size * data_parallel_size”整除。

    本文设置的参数值如下:

    global_batch_size = 64 
    micro_batch_size = 4 
    data_parallel_size = 8

  3. 单机多卡完整的预训练脚本内容如下:

    #! /bin/bash
    
    # Runs the "345M" parameter model
    
    GPUS_PER_NODE=8
    # Change for multinode config
    MASTER_ADDR=localhost
    MASTER_PORT=6000
    NNODES=1
    NODE_RANK=0
    WORLD_SIZE=$(($GPUS_PER_NODE*$NNODES))
    
    DATA_PATH=data/meg-gpt2_text_document
    CHECKPOINT_PATH=checkpoints/gpt2
    
    DISTRIBUTED_ARGS="--nproc_per_node $GPUS_PER_NODE --nnodes $NNODES --node_rank $NODE_RANK --master_addr $MASTER_ADDR --master_port $MASTER_PORT"
    
    python -m torch.distributed.launch $DISTRIBUTED_ARGS \
           pretrain_gpt.py \
           --tensor-model-parallel-size 1 \
           --pipeline-model-parallel-size 1 \
           --num-layers 24 \
           --hidden-size 1024 \
           --num-attention-heads 16 \
           --micro-batch-size 4 \
           --global-batch-size 64 \
           --seq-length 1024 \
           --max-position-embeddings 1024 \
           --train-iters 5000 \
           --lr-decay-iters 320000 \
           --save $CHECKPOINT_PATH \
           --load $CHECKPOINT_PATH \
           --data-path $DATA_PATH \
           --vocab-file data/gpt2-vocab.json \
           --merge-file data/gpt2-merges.txt \
           --data-impl mmap \
           --split 949,50,1 \
           --distributed-backend nccl \
           --lr 0.00015 \
           --lr-decay-style cosine \
           --min-lr 1.0e-5 \
           --weight-decay 1e-2 \
           --clip-grad 1.0 \
           --lr-warmup-fraction .01 \
           --checkpoint-activations \
           --log-interval 10 \
           --save-interval 500 \
           --eval-interval 100 \
           --eval-iters 10 \
           --fp16

    训练时监控的GPU利用率如下:

    图7 GPU利用率

support.huaweicloud.com/usermanual-server-modelarts/usermanual-server-0015.html