AI开发平台MODELARTS-Open-Sora-Plan1.0基于DevServer适配PyTorch NPU训练推理指导(6.3.907):Step7 下载数据集

时间:2024-09-14 22:29:38

Step7 下载数据集

先创建文件夹用来存放数据集。

mkdir datasets
cd datasets

训练使用的开源数据集链接:https://huggingface.co/datasets/LanguageBind/Open-Sora-Plan-v1.0.0/tree/main。

由于数据集比较大,可以自行选择部分数据集手动下载解压,并放入 ./datasets文件夹下。

例如:这里下载了上述链接中mixkit.tar.gz和sharegpt4v_path_cap_64x512x512.json。

(备注:如果只下载了部分数据集,需要对应修改sharegpt4v_path_cap_64x512x512.json文件)

解压数据集:

tar -xzvf mixkit.tar.gz

解压后的数据集结果如图所示。

图5 解压后的数据集文件
support.huaweicloud.com/bestpractice-modelarts/modelarts_aigc_9077.html