AI开发平台MODELARTS-数据处理:数据预处理

时间：2024-04-30 18:09:30

AI开发平台MODELARTS

数据预处理

使用数据预处理脚本preprocess_data.py脚本重新生成.bin和.idx格式的SFT全参微调数据。preprocess_data.py存放在AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/ModelLink/tools目录中，脚本具体内容如下。

#进入ModelLink目录：
cd /home/ma-user/ws/AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/ModelLink
python tools/preprocess_data.py --input alpaca_data.json\
    --output-prefix $DATA_PATH \
    --tokenizer-type PretrainedFromHF \
    --tokenizer-name-or-path $TOKENIZER_PATH \
    --tokenizer-not-use-fast \
    --handler-name GeneralInstructionHandler

参数说明：

- input：SFT全参微调数据的存放路径。

- output-prefix：处理后的数据集保存路径+数据集名称前缀（例如：alpaca-ft）。

- tokenizer-type：tokenizer的类型，可选项有['BertWordPieceLowerCase'， 'BertWordPieceCase'，'GPT2BPETokenizer'， 'PretrainedFromHF']，设置为PretrainedFromHF。

- tokenizer-name-or-path：tokenizer的存放路径。

- handler-name：生成数据集的用途，这里是生成的指令数据集，用于微调。

输出结果

alpaca-ft_packed_attention_mask_document.bin

alpaca-ft_packed_attention_mask_document.idx

alpaca-ft_packed_input_ids_document.bin

alpaca-ft_packed_input_ids_document.idx

alpaca-ft_packed_labels_document.bin