AI开发平台MODELARTS-数据处理:数据预处理

时间:2024-04-30 18:09:30

数据预处理

使用数据预处理脚本preprocess_data.py脚本重新生成.bin和.idx格式的SFT全参微调数据。preprocess_data.py存放在AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/ModelLink/tools目录中,脚本具体内容如下。

#进入ModelLink目录:
cd /home/ma-user/ws/AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/ModelLink
python tools/preprocess_data.py --input alpaca_data.json\
    --output-prefix $DATA_PATH \
    --tokenizer-type PretrainedFromHF \
    --tokenizer-name-or-path $TOKENIZER_PATH \
    --tokenizer-not-use-fast \
    --handler-name GeneralInstructionHandler

参数说明:

- input:SFT全参微调数据的存放路径。

- output-prefix:处理后的数据集保存路径+数据集名称前缀(例如:alpaca-ft)。

- tokenizer-type:tokenizer的类型,可选项有['BertWordPieceLowerCase', 'BertWordPieceCase','GPT2BPETokenizer', 'PretrainedFromHF'],设置为PretrainedFromHF。

- tokenizer-name-or-path:tokenizer的存放路径。

- handler-name:生成数据集的用途,这里是生成的指令数据集,用于微调。

输出结果

alpaca-ft_packed_attention_mask_document.bin

alpaca-ft_packed_attention_mask_document.idx

alpaca-ft_packed_input_ids_document.bin

alpaca-ft_packed_input_ids_document.idx

alpaca-ft_packed_labels_document.bin

alpaca-ft_packed_labels_document.idx

训练的时候指定的路径为/path/to/alpaca-ft不加文件类型后缀。

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1554.html