AI开发平台MODELARTS-预训练数据处理:自定义数据

时间:2024-04-30 18:09:26

自定义数据

如果是用户自己准备的数据集,可以使用Ascendspeed代码仓中的转换工具将json格式数据集转换为训练中使用的.idx + .bin格式。

#示例:
#1.将准备好的json格式数据集存放于6.3.902-Ascend/datasets/data目录下: data.json
#2.修改转换脚本
python ${MA_JOB_DIR}/6.3.902-Ascend/llm_train/AscendSpeed/ModelLink/tools/preprocess_data.py \
    --input ${MA_JOB_DIR}/6.3.902-Ascend/datasets/data/data.json \ #需要转换的数据集路径
    --output-prefix ${MA_JOB_DIR}/6.3.902-Ascend/datasets/alpaca/llama2-13B/alpaca \  #转换后存放的数据集路径
    --tokenizer-type PretrainedFromHF \
    --tokenizer-name-or-path ${MA_JOB_DIR}/6.3.902-Ascend/tokenizers/llama2-13b-hf \
    --tokenizer-not-use-fast \
    --json-keys text
#3.执行完成后在 datasets文件夹中可以得到 data_text_document.idx 与data_text_document.bin 两个文件
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1812.html