AI开发平台MODELARTS-预训练数据处理:自定义数据

时间:2024-04-30 18:09:32

自定义数据

如果是用户自己准备的数据集,可以使用Ascendspeed代码仓中的转换工具将json格式数据集转换为训练中使用的.idx + .bin格式。

#示例:
#1.将准备好的json格式数据集存放于/home/ma-user/ws/datasets/data目录下: data.json
#2.运行转换脚本
cd /home/ma-user/ws/llm_train/AscendSpeed/ModelLink/  
python tools/preprocess_data.py --input data.json \ #需要转换的数据集路径
                                --output-prefix datasets/data \ #转换后存放的数据集路径
                                --tokenizer-type PretrainedFromHF \
                                --tokenizer-name-or-path llama2-13b-hf \
                                --tokenizer-not-use-fast \
                                --json-keys text
#3.执行完成后在 datasets文件夹中可以得到 data_text_document.idx 与data_text_document.bin 两个文件
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1547.html