AI开发平台MODELARTS-CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.912）:步骤五：CogVideo微调

时间：2025-02-21 11:14:27

步骤五：CogVideo微调

下载模型权重
下载CogVideoX1.5 5b模型，huggingface地址如下
```
https://huggingface.co/THUDM/CogVideoX1.5-5B
```

准备数据集

数据集可参考使用如下数据集

https://huggingface.co/datasets/Wild-Heart/Tom-and-Jerry-VideoGeneration-Dataset

进行data cache

由于CogVideoX1.5对显存需求较大，直接训练显存不足，训练采用data cache，将text encoder和vae两个不参与训练的模型对数据集进行预编码处理。

cd /home/ma-user/finetrainers

对/home/ma-user/finetrainers/prepare_dataset.sh文件进行修改，配置对应的参数：

MODEL_ID="path/CogVideoX1.5-5B" # 模型路径
DATA_ROOT="path/Tom-and-Jerry-VideoGeneration-Dataset"  # 数据集路径
CAPTION_COLUMN="captions.txt"   # 数据集提示词文件名
VIDEO_COLUMN="videos.txt"       # 数据集视频名文件名 
OUTPUT_DIR="path/preprocessed-Tom-dataset"   # 预编码处理的tensor数据集输出路径

修改后，执行prepare_dataset.sh脚本

bash prepare_dataset.sh

进行模型训练

cd /home/ma-user/finetrainers

对finetrainers/train_text_to_video_sft.sh文件进行修改，配置训练使用的超参数：

MAX_TRAIN_STEPS=("20000")    # 最大训练步数
DATA_ROOT="path/preprocessed-Tom-dataset"  # 预编码处理的tensor数据集路径，即data cache的输出路径
CAPTION_COLUMN="prompts.txt"        # 数据集提示词文件名
VIDEO_COLUMN="videos.txt"            # 数据集视频名文件名
MODEL_PATH="THUDM/CogVideoX1.5-5B"   # 模型路径
output_dir="/path/to/my/models/cogvideox-sft # 模型输出路径

修改后，执行train_text_to_video_sft.sh脚本