AI开发平台MODELARTS-Open-Sora-Plan1.0基于DevServer适配PyTorch NPU训练推理指导(6.3.907):Step7 下载数据集
Step7 下载数据集
先创建文件夹用来存放数据集。
mkdir datasets cd datasets
训练使用的开源数据集链接:https://huggingface.co/datasets/LanguageBind/Open-Sora-Plan-v1.0.0/tree/main。
由于数据集比较大,可以自行选择部分数据集手动下载解压,并放入 ./datasets文件夹下。
例如:这里下载了上述链接中mixkit.tar.gz和sharegpt4v_path_cap_64x512x512.json。
(备注:如果只下载了部分数据集,需要对应修改sharegpt4v_path_cap_64x512x512.json文件)
解压数据集:
tar -xzvf mixkit.tar.gz
解压后的数据集结果如图所示。