AI开发平台MODELARTS-CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导(6.3.912):步骤五:CogVideo微调

时间:2025-02-21 11:14:27

步骤五:CogVideo微调

  1. 下载模型权重

    下载CogVideoX1.5 5b模型,huggingface地址如下

    https://huggingface.co/THUDM/CogVideoX1.5-5B
  2. 准备数据集

    数据集可参考使用如下数据集

    https://huggingface.co/datasets/Wild-Heart/Tom-and-Jerry-VideoGeneration-Dataset
  3. 进行data cache

    由于CogVideoX1.5对显存需求较大,直接训练显存不足,训练采用data cache,将text encoder和vae两个不参与训练的模型对数据集进行预编码处理。

    cd /home/ma-user/finetrainers

    对/home/ma-user/finetrainers/prepare_dataset.sh文件进行修改,配置对应的参数:

    MODEL_ID="path/CogVideoX1.5-5B" # 模型路径
    DATA_ROOT="path/Tom-and-Jerry-VideoGeneration-Dataset"  # 数据集路径
    CAPTION_COLUMN="captions.txt"   # 数据集提示词文件名
    VIDEO_COLUMN="videos.txt"       # 数据集视频名文件名 
    OUTPUT_DIR="path/preprocessed-Tom-dataset"   # 预编码处理的tensor数据集输出路径

    修改后,执行prepare_dataset.sh脚本

    bash prepare_dataset.sh
  4. 进行模型训练
    cd /home/ma-user/finetrainers
    对finetrainers/train_text_to_video_sft.sh文件进行修改,配置训练使用的超参数:
    MAX_TRAIN_STEPS=("20000")    # 最大训练步数
    DATA_ROOT="path/preprocessed-Tom-dataset"  # 预编码处理的tensor数据集路径,即data cache的输出路径
    CAPTION_COLUMN="prompts.txt"        # 数据集提示词文件名
    VIDEO_COLUMN="videos.txt"            # 数据集视频名文件名
    MODEL_PATH="THUDM/CogVideoX1.5-5B"   # 模型路径
    output_dir="/path/to/my/models/cogvideox-sft # 模型输出路径

    修改后,执行train_text_to_video_sft.sh脚本

    bash train_text_to_video_sft.sh

以上微调文档提示来自官方文档,有关可用微调脚本参数及其功能的全面文档,您可以参考官方finetrainers中CogVideo训练文档

support.huaweicloud.com/bestpractice-modelarts/modelarts_aigc_cogvideox_912.html