AI开发平台MODELARTS-预训练数据处理:自定义数据

时间:2024-11-05 09:54:16

自定义数据

如果是用户自己准备的数据集,可以使用Ascendspeed代码仓中的转换工具将json格式数据集转换为训练中使用的.idx + .bin格式。

#示例:
#1.将准备好的json格式数据集存放于/home/ma-user/ws/training_data目录下: 如data.json
#2.运行转换脚本
cd /home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink/  

#加载ascendspeed及megatron模型,xxx-Ascend请根据实际目录替换
export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/AscendSpeed
export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink
python ./tools/preprocess_data.py \
 --input {work_dir}/training_data/data.json \
 --tokenizer-name-or-path {work_dir}/tokenizers/Llama2-70B \
 --output-prefix {work_dir}/processed_for_ma_input/Llama2-70B/data/pretrain/alpaca \
 --workers 8 \
 --log-interval 1000 \
 --tokenizer-type PretrainedFromHF 
 #3.执行完成后在 datasets文件夹中可以得到 data_text_document.idx 与data_text_document.bin 两个文件
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1607.html