AI开发平台MODELARTS-数据处理:数据预处理
数据预处理
使用数据预处理脚本preprocess_data.py脚本重新生成.bin和.idx格式的SFT全参微调数据。preprocess_data.py存放在AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/ModelLink/tools目录中,脚本具体内容如下。
#进入ModelLink目录: cd /home/ma-user/ws/AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/ModelLink python tools/preprocess_data.py --input alpaca_data.json\ --output-prefix $DATA_PATH \ --tokenizer-type PretrainedFromHF \ --tokenizer-name-or-path $TOKENIZER_PATH \ --tokenizer-not-use-fast \ --handler-name GeneralInstructionHandler
参数说明:
- input:SFT全参微调数据的存放路径。
- output-prefix:处理后的数据集保存路径+数据集名称前缀(例如:alpaca-ft)。
- tokenizer-type:tokenizer的类型,可选项有['BertWordPieceLowerCase', 'BertWordPieceCase','GPT2BPETokenizer', 'PretrainedFromHF'],设置为PretrainedFromHF。
- tokenizer-name-or-path:tokenizer的存放路径。
- handler-name:生成数据集的用途,这里是生成的指令数据集,用于微调。
输出结果
alpaca-ft_packed_attention_mask_document.bin
alpaca-ft_packed_attention_mask_document.idx
alpaca-ft_packed_input_ids_document.bin
alpaca-ft_packed_input_ids_document.idx
alpaca-ft_packed_labels_document.bin
alpaca-ft_packed_labels_document.idx
训练的时候指定的路径为/path/to/alpaca-ft不加文件类型后缀。