AI开发平台MODELARTS-预训练数据处理:自定义数据

时间:2024-11-05 09:54:19

自定义数据

如果是用户自己准备的数据集,可以使用Ascendspeed代码仓中的转换工具将json格式数据集转换为训练中使用的.idx + .bin格式。

#示例:
#1.将准备好的json格式数据集存放于/home/ma-user/ws/training_data目录下: data.json
#2.运行转换脚本
#进入到ModelLink目录下:
cd /home/ma-user/ws/6.3.904-Ascend/llm_train/AscendSpeed/ModelLink/  
#加载ascendspeed及megatron模型:
export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/6.3.904-Ascend/llm_train/AscendSpeed/AscendSpeed
export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/6.3.904-Ascend/llm_train/AscendSpeed/ModelLink
#执行以下命令:
python ./tools/preprocess_data.py \
 --input {work_dir}/training_data/data.json \
 --tokenizer-name-or-path {work_dir}/tokenizers/BaiChuan2-13B \
 --output-prefix {work_dir}/processed_for_ma_input/BaiChuan2-13B/data/pretrain/alpaca \
 --workers 8 \
 --seq-length 4096 \
 --log-interval 1000 \
 --tokenizer-type PretrainedFromHF
#3.执行完成后在 datasets文件夹中可以得到 data_text_document.idx 与data_text_document.bin 两个文件
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1918.html