AI开发平台MODELARTS-准备数据(可选):上传自定义数据到指定目录

时间:2024-11-12 16:42:43

上传自定义数据到指定目录

将下载的原始数据存放在{work_dir}/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。具体步骤如下:

  1. 进入到/home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data目录下。
    cd  /home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data
  2. 将自定义原始数据(指令监督微调样例数据集:alpaca_gpt4_data.json.json)按照下面的数据存放目录要求放置。

    指令微调样例数据集alpaca_gpt4_data.json.json的下载链接:https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json

    数据存放参考目录结构如下:

    ${workdir}(例如/home/ma-user/ws/llm_train )
      |── LLaMAFactory/data
           |── alpaca_en_demo.json                   # 代码原有数据集
           |── identity.json                         # 代码原有数据集
           ...
           |── alpaca_gpt4_data.json                 # 自定义数据集
  3. 更新代码目录下data/dataset_info.json文件。如使用以下示例数据集则命令如下。关于数据集文件格式及配置,更多样例格式信息请参考data/README_zh.md 的内容。
    vim dataset_info.json

    新加配置参数如下:

    "alpaca_gpt4_data": {
        "file_name": "alpaca_gpt4_data.json"
      },

    样例截图:

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_90926.html