AI开发平台MODELARTS-准备数据:上传数据集至SFS Turbo

时间:2024-11-12 16:42:45

上传数据集至SFS Turbo

准备数据集,例如根据Alpaca数据部分给出的预训练数据集、SFT全参微调训练、LoRA微调训练数据集下载链接下载数据集。可通过两种方式,将数据集上传至SFS Turbo中。

方式一:将下载的原始数据通过SSH直接上传至SFS Turbo中。具体步骤如下:

  1. 进入到/mnt/sfs_turbo/目录下。创建目录“training_data”,将原始数据存放在/mnt/sfs_turbo/training_data目录下。
  2. 通过拖拽文件的方式,上传文件。使用CloudShell或者其它SSH远程工具。数据存放参考目录:
    /mnt/sfs_turbo/training_data
           |── train-00000-of-00001-a09b74b3ef9c3b56.parquet  # 训练原始数据集
           |── alpaca_gpt4_data.json                          # 微调数据文件
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_90994.html