AI开发平台MODELARTS-CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导(6.3.912):步骤五:CogVideo微调
AI开发平台MODELARTS-CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导(6.3.912):步骤五:CogVideo微调
步骤五:CogVideo微调
- 下载模型权重
下载CogVideoX1.5 5b模型,huggingface地址如下
https://huggingface.co/THUDM/CogVideoX1.5-5B
- 准备数据集
数据集可参考使用如下数据集
https://huggingface.co/datasets/Wild-Heart/Tom-and-Jerry-VideoGeneration-Dataset
- 进行data cache
由于CogVideoX1.5对显存需求较大,直接训练显存不足,训练采用data cache,将text encoder和vae两个不参与训练的模型对数据集进行预编码处理。
cd /home/ma-user/finetrainers
对/home/ma-user/finetrainers/prepare_dataset.sh文件进行修改,配置对应的参数:
MODEL_ID="path/CogVideoX1.5-5B" # 模型路径 DATA_ROOT="path/Tom-and-Jerry-VideoGeneration-Dataset" # 数据集路径 CAPTION_COLUMN="captions.txt" # 数据集提示词文件名 VIDEO_COLUMN="videos.txt" # 数据集视频名文件名 OUTPUT_DIR="path/preprocessed-Tom-dataset" # 预编码处理的tensor数据集输出路径
修改后,执行prepare_dataset.sh脚本
bash prepare_dataset.sh
- 进行模型训练
cd /home/ma-user/finetrainers
对finetrainers/train_text_to_video_sft.sh文件进行修改,配置训练使用的超参数:MAX_TRAIN_STEPS=("20000") # 最大训练步数 DATA_ROOT="path/preprocessed-Tom-dataset" # 预编码处理的tensor数据集路径,即data cache的输出路径 CAPTION_COLUMN="prompts.txt" # 数据集提示词文件名 VIDEO_COLUMN="videos.txt" # 数据集视频名文件名 MODEL_PATH="THUDM/CogVideoX1.5-5B" # 模型路径 output_dir="/path/to/my/models/cogvideox-sft # 模型输出路径
修改后,执行train_text_to_video_sft.sh脚本
bash train_text_to_video_sft.sh
以上微调文档提示来自官方文档,有关可用微调脚本参数及其功能的全面文档,您可以参考官方finetrainers中CogVideo训练文档。