AI开发平台MODELARTS-准备数据:上传数据到指定目录

时间:2024-09-14 22:29:35

上传数据到指定目录

将下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下:

  1. 进入到/home/ma-user/ws/目录下。
  2. 创建目录“training_data”,并将原始数据放置在此处。
    mkdir training_data 

    数据存放参考目录结构如下:

    ${workdir}(例如/home/ma-user/ws )
      |── training_data
           |── train-00000-of-00001-a09b74b3ef9c3b56.parquet  # 训练原始数据集
           |── alpaca_gpt4_data.json                          # 微调数据文件

注意:多机情况下,只有在rank_0节点进行数据预处理,转换权重等工作,所以原始数据集和原始权重,包括保存结果路径,都应该在共享目录下。

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_3155.html