AI开发平台MODELARTS-预训练:Step2 配置数据输入和输出

时间:2024-11-12 16:42:41

Step2 配置数据输入和输出

单击“增加训练输入”和“增加训练输出”,用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。

  1. 在“输入”的输入框内设置变量:ORIGINAL_TRAIN_DATA_PATH、ORIGINAL_HF_WEIGHT。
    • ORIGINAL_TRAIN_DATA_PATH:训练时指定的输入数据集路径。
    • ORIGINAL_HF_WEIGHT:加载tokenizer与Hugging Face权重时,对应的存放地址。
  2. 在“输出”的输入框内设置变量:OUTPUT_SAVE_DIR、HF_SAVE_DIR。
    • OUTPUT_SAVE_DIR:训练完成后指定的输出模型路径。
    • HF_SAVE_DIR:训练完成的权重文件自动转换为Hugging Face格式权重输出的路径(确保添加CONVERT_MG2HF环境变量并设置为True)。
  3. 分别单击“输入”和“输出”的数据存储位置,如图所示,选择OBS桶中指定的目录。ORIGINAL_TRAIN_DATA_PATH中则直接选中数据集文件。
  4. “输入”和“输出”中的获取方式全部选择为:环境变量。
  5. “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_90872.html