AI开发平台MODELARTS-训练数据集预处理说明:用户自定义执行数据处理脚本修改参数说明
用户自定义执行数据处理脚本修改参数说明
若用户要自定义数据处理脚本并且单独执行,同样以 llama2 为例。
- 方法一:用户可打开scripts/llama2/1_preprocess_data.sh脚本,将执行的python命令复制下来,修改环境变量的值。在Notebook进入到 /home/ma-user/work/llm_train/AscendSpeed/ModelLink 路径中,再执行python命令。
- 方法二:用户在Notebook中直接编辑scripts/llama2/1_preprocess_data.sh脚本,自定义环境变量的值,并在脚本的首行中添加 cd /home/ma-user/work/llm_train/AscendSpeed/ModelLink 命令,随后在Notebook中运行该脚本。
其中环境变量详细介绍如下:
环境变量 |
示例 |
参数说明 |
---|---|---|
RUN_TYPE |
pretrain、sft、lora |
数据预处理区分: 预训练场景下数据预处理,默认参数:pretrain 微调场景下数据预处理,默认:sft / lora |
ORIGINAL_TRAIN_DATA_PATH |
/home/ma-user/work/training_data/finetune/moss_LossCompare.jsonl |
原始数据集的存放路径。 |
TOKENIZER_PATH |
/home/ma-user/work/model/llama-2-13b-chat-hf |
tokenizer的存放路径,与HF权重存放在一个文件夹下。请根据实际规划修改。 |
PRO CES SED_DATA_PREFIX |
/home/ma-user/work/llm_train/processed_for_input/llama2-13b/data/pretrain/alpaca |
处理后的数据集保存路径+数据集前缀。 |
TOKENIZER_TYPE |
PretrainedFromHF |
可选项有:['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','PretrainedFromHF'],一般为 PretrainedFromHF 。 |
SEQ_LEN |
4096 |
要处理的最大seq length。脚本会检测超出SEQ_LEN长度的数据,并打印log。 |
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- ModelArts是什么_AI开发平台_ModelArts功能
- ModelArts模型训练_超参搜索简介_超参搜索算法
- ModelArts模型训练_模型训练简介_如何训练模型
- 华为云CodeArts API_前后置脚本能力
- ModelArts自定义镜像_自定义镜像简介_如何使用自定义镜像
- ModelArts数据管理_数据管理功能简介_数据集管理
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云
- 华为云ModelArts_ModelArts开发_AI全流程开发