AI开发平台MODELARTS-准备数据:上传数据到指定目录

时间:2024-11-05 09:54:16

上传数据到指定目录

将下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下:

  1. 进入到/home/ma-user/ws/目录下。
  2. 创建目录“training_data/pretrain”,并将预训练原始数据放置在此处。
    mkdir -p training_data/pretrain 

    创建目录“training_data/finetune”,并将微调训练原始数据放置在此处

    mkdir -p training_data/finetune

    数据存放参考目录结构如下:

    ${workdir}(例如/home/ma-user/ws )
      ├── training_data                   #原始数据目录
            ├── pretrain                  #预训练加载的数据
                    ├── train-00000-of-00001-a09b74b3ef9c3b56.parquet  #预训练原始数据文件
            ├── finetune                  #微调训练加载的数据
                    ├── alpaca_gpt4_data.json                          #微调训练原始数据文件
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1644.html