AI开发平台MODELARTS-Open-Clip基于DevServer适配PyTorch NPU训练指导:Step5 获取训练数据集

时间:2024-07-13 11:26:38

Step5 获取训练数据集

使用img2dataset工具下载数据集。首先需要在容器安装img2dataset,安装命令如下。

pip install img2dataset

参考官方指导下载开源mscoco数据集。

#下载metadata
wget https://huggingface.co/datasets/ChristophSchuhmann/MS_COCO_2017_URL_TEXT/resolve/main/mscoco.parquet
#使用img2dataset工具下载数据集
img2dataset --url_list mscoco.parquet --input_format "parquet"\
         --url_col "URL" --caption_col "TEXT" --output_format webdataset\
           --output_folder mscoco --processes_count 16 --thread_count 64 --image_size 256\
             --enable_wandb True
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1952.html