AI开发平台MODELARTS-数据处理:数据处理具体操作

时间:2024-04-30 18:09:30

数据处理具体操作

SFT全参微调数据处理具体操作步骤如下。

  1. 将获取到的SFT全参微调数据集上传到/home/ma-user/ws/datasets/目录中。
  2. 创建处理后的数据存放目录/home/ma-user/ws/datasets/alpaca-ft/llama2-13B/。
    cd /home/ma-user/ws/datasets  #进入/home/ma-user/ws/datasets目录
    mkdir -p alpaca-ft/llama2-13B   #创建alpaca-ft/llama2-13B目录
  3. 进入代码目录“/home/ma-user/ws/AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/ModelLink/”,在代码目录中执行preprocess_data.py脚本处理数据。
    此处提供一段实际的数据处理代码示例如下。
    export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/ModelLink/
    python tools/preprocess_data.py  \
    	 --input /home/ma-user/ws/datasets/data/alpaca_data.json \
         --output-prefix /home/ma-user/ws/datasets/alpaca-ft/llama2-13b/alpaca-ft \
         --tokenizer-type PretrainedFromHF \
         --tokenizer-name-or-path /home/ma-user/ws/tokenizers/llama2-13b-hf \
         --tokenizer-not-use-fast \
         --handler-name GeneralInstructionHandler 

    数据处理完后,在/home/ma-user/ws/datasets/alpaca-ft/llama2-13B/目录下生成转换后的数据文件。

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1554.html