华为云首页用户手册

AI开发平台MODELARTS-训练的数据集预处理说明:用户自定义执行数据处理脚本修改参数说明

AI开发平台MODELARTS-训练的数据集预处理说明:用户自定义执行数据处理脚本修改参数说明

时间：2025-01-03 09:38:49

AI开发平台MODELARTS

用户自定义执行数据处理脚本修改参数说明

若用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。

方法一：用户可打开scripts/llama2/1_preprocess_data.sh脚本，将执行的python命令复制下来，修改环境变量的值，进入到 /home/ma-user/ws/llm_train/AscendSpeed/ModelLink 路径中，再执行python命令。
方法二：用户直接编辑scripts/llama2/1_preprocess_data.sh脚本，自定义环境变量的值，并在脚本的首行中添加 cd /home/ma-user/ws/llm_train/AscendSpeed/ModelLink 命令，随后运行该脚本。

其中环境变量详细介绍如下：

表1 数据预处理中的环境变量
环境变量	示例	参数说明
RUN_TYPE	pretrain、sft、lora	数据预处理区分：预训练场景下数据预处理，默认参数：pretrain 微调场景下数据预处理，默认：sft / lora
ORIGINAL_TRAIN_DATA_PATH	/home/ma-user/ws/llm_train/AscendSpeed/training_data/${用户自定义的数据集路径和名称}	原始数据集的存放路径。
TOKENIZER_PATH	/home/ma-user/ws/llm_train/AscendSpeed/tokenizers/llama2-13b	tokenizer的存放路径，与HF权重存放在一个文件夹下。请根据实际规划修改。
PRO CES SED_DATA_PREFIX	/home/ma-user/ws/llm_train/AscendSpeed/processed_for_input/llama2-13b/data	处理后的数据集保存路径+数据集前缀
TOKENIZER_TYPE	PretrainedFromHF	可选项有：['BertWordPieceLowerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为 PretrainedFromHF 。
SEQ_LEN	4096	要处理的最大seq length。脚本会检测超出SEQ_LEN长度的数据，并打印log。

上一篇：AI开发平台MODELARTS-训练的数据集预处理说明:预训练数据集预处理参数说明

下一篇：AI开发平台MODELARTS-训练的数据集预处理说明:预训练数据集预处理参数说明

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-训练的数据集预处理说明:用户自定义执行数据处理脚本修改参数说明

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题