检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
b.sh训练脚本后,脚本检查是否已经完成数据集预处理。 如果已完成数据集预处理,则直接执行预训练任务。如果未进行数据集预处理,则会自动执行 scripts/llama2/1_preprocess_data.sh 。 预训练数据集预处理参数说明 预训练数据集预处理脚本 script
的handler名称即可 用户自定义执行数据处理脚本修改参数说明 如果用户要自定义数据处理脚本并且单独执行,同样以 llama2 为例。 方法一:用户可打开scripts/llama2/1_preprocess_data.sh脚本,将执行的python命令复制下来,修改环境变量的值。在Notebook进入到
scripts/llama2/2_convert_mg_hf.sh 脚本,自定义环境变量的值,并运行该脚本。其中环境变量详细介绍如下: 若用户要自定义数据处理脚本并且单独执行,同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式,以及Megatron
0_pl_pretrain_13b.sh 脚本。脚本同样还会检查是否已经完成权重转换的过程。 若已完成权重转换,则直接执行预训练任务。若未进行权重转换,则会自动执行 scripts/llama2/2_convert_mg_hf.sh 。脚本具体参数如下: HuggingFace转Megatron参数说明
ng_qwen.py文件,具体位置可根据上下代码信息进行查找,修改后如图所示。 图5 修改Qwen tokenizer文件 父主题: 训练脚本说明
息、底层NPU算子信息、以及算子内存占用信息等,可以全方位分析PyTorch训练时的性能状态。 录制命令如下: 在启动训练脚本基础上Step3 启动训练脚本 新加DO_PROFILER=1和PROF_SAVE_PATH=/save_path参数,单机启动举例说明: DO_PROFILER=1
定自己的handler名称即可 用户自定义执行数据处理脚本修改参数说明 同样以 llama2 为例,用户可直接编辑 scripts/llama2/1_preprocess_data.sh 脚本,自定义环境变量的值,并运行该脚本。其中环境变量详细介绍如下: 表1 数据预处理中的环境变量
scripts/llama2/2_convert_mg_hf.sh 脚本,自定义环境变量的值,并运行该脚本。其中环境变量详细介绍如下: 如果用户要自定义数据处理脚本并且单独执行,同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式,以及Megatron
的handler名称即可 用户自定义执行数据处理脚本修改参数说明 如果用户要自定义数据处理脚本并且单独执行,同样以 llama2 为例。 方法一:用户可打开scripts/llama2/1_preprocess_data.sh脚本,将执行的python命令复制下来,修改环境变量的值。在Notebook进入到
_qwen.py文件,具体位置可根据上下文代码信息进行查找,修改后如图6所示。 图6 修改Qwen tokenizer文件 父主题: 训练脚本说明
g_qwen.py文件,具体位置可根据上下文代码信息进行查找,修改后如图所示。 图6 修改Qwen tokenizer文件 父主题: 训练脚本说明
的handler名称即可 用户自定义执行数据处理脚本修改参数说明 如果用户要自定义数据处理脚本并且单独执行,同样以 llama2 为例。 方法一:用户可打开scripts/llama2/1_preprocess_data.sh脚本,将执行的python命令复制下来,修改环境变量的值,进入到
scripts/llama2/2_convert_mg_hf.sh 脚本,自定义环境变量的值,并运行该脚本。其中环境变量详细介绍如下: 如果用户要自定义数据处理脚本并且单独执行,同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式,以及Megatron
_qwen.py文件,具体位置可根据上下文代码信息进行查找,修改后如图6所示。 图6 修改Qwen tokenizer文件 父主题: 训练脚本说明
修改tokenizer目录下面modeling_qwen.py文件的第38和39行,修改后如图3所示。 图3 修改Qwen tokenizer文件 父主题: 训练脚本说明
信息、底层NPU算子信息、以及算子内存占用信息等,可以全方位分析PyTorch训练时的性能状态。 录制命令如下: 在启动训练脚本基础:步骤三 启动训练脚本 新加DO_PROFILER=1和PROF_SAVE_PATH=/save_path参数,单机启动举例说明: DO_PROFILER=1
scripts/llama2/2_convert_mg_hf.sh 脚本,自定义环境变量的值,并运行该脚本。其中环境变量详细介绍如下: 如果用户要自定义数据处理脚本并且单独执行,同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式,以及Megatron
scripts/llama2/2_convert_mg_hf.sh 脚本,自定义环境变量的值,并运行该脚本。其中环境变量详细介绍如下: 如果用户要自定义数据处理脚本并且单独执行,同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式,以及Megatron
scripts/llama2/2_convert_mg_hf.sh 脚本,自定义环境变量的值,并运行该脚本。其中环境变量详细介绍如下: 如果用户要自定义数据处理脚本并且单独执行,同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式,以及Megatron
sh 训练脚本后,脚本检查是否已经完成数据集预处理的过程。 若已完成数据集预处理,则直接执行预训练任务。若未进行数据集预处理,则会自动执行 scripts/llama2/1_preprocess_data.sh 。 预训练数据集预处理参数说明 预训练数据集预处理脚本script