华为云用户手册

AI开发平台MODELARTS-准备数据:数据集下载

数据集下载本教程使用Alpaca数据集，数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型进行指令调优，使语言模型更好地遵循指令。预训练使用的Alpaca数据集下载：https://huggingface.co/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56.parquet，数据大小：24M左右。 SFT和LoRA微调使用的Alpaca数据集下载：https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json，数据大小：43.6 MB。

AI开发平台MODELARTS
AI开发平台MODELARTS-准备数据:上传数据集至SFS Turbo

上传数据集至SFS Turbo 准备数据集，例如根据Alpaca数据部分给出的预训练数据集、SFT全参微调训练、LoRA微调训练数据集下载链接下载数据集。可通过两种方式，将数据集上传至SFS Turbo中。方式一：将下载的原始数据通过SSH直接上传至SFS Turbo中。具体步骤如下：进入到/mnt/sfs_turbo/目录下。创建目录“training_data”，将原始数据存放在/mnt/sfs_turbo/training_data目录下。通过拖拽文件的方式，上传文件。使用CloudShell或者其它SSH远程工具。数据存放参考目录： /mnt/sfs_turbo/training_data |── train-00000-of-00001-a09b74b3ef9c3b56.parquet # 训练原始数据集 |── alpaca_gpt4_data.json # 微调数据文件

AI开发平台MODELARTS
AI开发平台MODELARTS-准备资源:ModelArts网络关联SFS Turbo

ModelArts网络关联SFS Turbo OBS-SFS Turbo联动方案涉及VPC、SFS Turbo HPC型文件系统、OBS 对象存储服务和ModelArts资源池。如果要使用训练作业挂载SFS Turbo功能，则需要配置ModelArts和SFS Turbo间网络直通，以及配置ModelArts网络关联SFS Turbo。如果ModelArts网络关联SFS Turbo失败，则需要授权ModelArts云服务使用SFS Turbo，具体操作请参见配置ModelArts和SFS Turbo间网络直通。图5 ModelArts网络关联SFS Turbo

AI开发平台MODELARTS
AI开发平台MODELARTS-准备资源:SFS Turbo模式下执行流程

SFS Turbo模式下执行流程 SFS Turbo作为完全托管的共享文件存储系统，在本方案中作为主要的存储介质应用于训练作业。因此，后续需要准备的原始数据集、原始Hugging Face权重文件以及训练代码都需要上传至SFS Turbo中。而基于SFS Turbo所执行的训练流程如下：将SFS Turbo挂载至E CS 服务器后，可直接访问SFS Turbo。通过CloudShell远程登录ECS并将代码包上传至SFS Turbo中。在表1获取基础镜像，随后通过准备镜像中的步骤执行代码包中llm_train/AscendSpeed/Dockerfile文件，构建新的镜像，并上传至SWR中。新构建的镜像中，包含有ModelLink、MindSpeed、Megatron-LM等代码，在集群中启动容器即可通过/home/ma-user/AscendSpeed路径访问。在ModelArts中创建训练作业如：预训练，执行代码包中例如：scripts/llama2/0_pl_pretrain_13b.sh 的脚本，开始训练。在训练中，程序会自动执行对数据集预处理、权重转换、执行训练等操作，具体可通过训练启动脚本说明和参数配置、训练的数据集预处理说明、训练的权重转换说明了解其中的操作。训练完成后在SFS Turbo中保存训练的模型结果。（多机情况下，只有在rank_0节点进行数据预处理，权重转换等工作，所以原始数据集和原始权重，包括保存结果路径，都应该在共享目录下）

AI开发平台MODELARTS
AI开发平台MODELARTS-准备资源:创建OBS桶

创建OBS桶 ModelArts使用对象存储服务（Object Storage Service，简称OBS）进行数据存储以及模型的备份和快照，实现安全、高可靠和低成本的存储需求。因此，在使用ModelArts之前通常先创建一个OBS桶，然后在OBS桶中创建文件夹用于存放数据。具体过程请参考创建OBS桶，例如桶名：standard-llama2-13b。由于ModelArts创建训练作业时，需要将作业日志输出至OBS桶中，因此创建OBS桶为必选项。用户可通过OBS Browser+、obsutil等工具访问和管理OBS桶，将代码、模型文件、数据集等数据上传或下载进行备份。

AI开发平台MODELARTS
AI开发平台MODELARTS-准备资源:创建SFS Turbo

创建SFS Turbo SFS Turbo HPC型文件系统为用户提供一个完全托管的共享文件存储。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象，用户可以指定SFS Turbo内的目录与OBS对象存储桶进行关联，然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动，可以将最新的训练数据导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。创建SFS Turbo文件系统前提条件：创建SFS Turbo文件系统前，确认已有可用的VPC。需要由 IAM 用户设置SFS Turbo FullAccess权限，用于授权ModelArts云服务使用SFS Turbo。详细操作指导请参考创建SFS Turbo文件系统。图1 创建SFS Turbo 其中，文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB，应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ，以存储更多模型文件。图2 SFS类型和容量选择

AI开发平台MODELARTS
AI开发平台MODELARTS-准备资源:创建ECS服务器

创建ECS服务器弹性云服务器（Elastic Cloud Server，ECS）是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意：CPU架构必须选择鲲鹏计算；镜像推荐选择EulerOS；ECS服务器确保可以访问公网，用于获取镜像和构建镜像。图3 购买ECS

AI开发平台MODELARTS
AI开发平台MODELARTS-准备资源:ECS服务器挂载SFS Turbo

ECS服务器挂载SFS Turbo ECS服务器中手动挂载SFS Turbo步骤如下：用户可通过CloudShell或SSH等方式登录并访问ECS服务器，进入ECS终端界面。创建/mnt/sfs_turbo目录作为挂载目录，命令为：mkdir /mnt/sfs_turbo。单击用户创建的SFS Turbo，查看基本信息图4，找到并复制挂载命令。在ECS的终端中粘贴SFS Turbo挂载命令，完成挂载。挂载完成后，可通过后续的步骤获取到代码和数据，并上传至/mnt/sfs_turbo路径下。图4 SFS Turbo基本信息

AI开发平台MODELARTS
AI开发平台MODELARTS-场景介绍:操作流程

操作流程图1 操作流程图表2 操作任务流程说明阶段任务说明准备工作准备资源本教程案例是基于ModelArts Standard运行的，需要购买并开通ModelArts专属资源池和OBS桶。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备权重准备所需的权重文件。准备代码准备AscendSpeed训练代码。准备镜像准备训练模型适用的容器镜像。准备Notebook 本案例需要创建一个Notebook，以便能够通过它访问SFS Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS Turbo，并对存储在SFS Turbo中的数据执行编辑操作。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、创建训练任务及性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调，包括训练数据处理、超参配置、创建训练任务及性能查看。 LoRA微调训练介绍如何进行LoRA微调训练，包括训练数据处理、超参配置、创建训练任务及性能查看。

AI开发平台MODELARTS
AI开发平台MODELARTS-场景介绍:支持的模型列表

支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表序号支持模型支持模型参数量权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf 2 llama2-13b https://huggingface.co/meta-llama/Llama-2-13b-chat-hf 3 llama2-70b https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface.co/meta-llama/Llama-2-70b-chat-hf (推荐) 4 llama3 llama3-8b https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct 5 llama3-70b https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct 6 Qwen qwen-7b https://huggingface.co/Qwen/Qwen-7B-Chat 7 qwen-14b https://huggingface.co/Qwen/Qwen-14B-Chat 8 qwen-72b https://huggingface.co/Qwen/Qwen-72B-Chat 9 Qwen1.5 qwen1.5-7b https://huggingface.co/Qwen/Qwen1.5-7B-Chat 10 qwen1.5-14b https://huggingface.co/Qwen/Qwen1.5-14B-Chat 11 qwen1.5-32b https://huggingface.co/Qwen/Qwen1.5-32B-Chat 12 qwen1.5-72b https://huggingface.co/Qwen/Qwen1.5-72B-Chat 13 Yi yi-6b https://huggingface.co/01-ai/Yi-6B-Chat 14 yi-34b https://huggingface.co/01-ai/Yi-34B-Chat 15 ChatGLMv3 glm3-6b https://huggingface.co/THUDM/chatglm3-6b 16 Baichuan2 baichuan2-13b https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat 17 Qwen2 qwen2-0.5b https://huggingface.co/Qwen/Qwen2-0.5B-Instruct 18 qwen2-1.5b https://huggingface.co/Qwen/Qwen2-1.5B-Instruct 19 qwen2-7b https://huggingface.co/Qwen/Qwen2-7B-Instruct 20 qwen2-72b https://huggingface.co/Qwen/Qwen2-72B-Instruct 21 GLMv4 glm4-9b https://huggingface.co/THUDM/glm-4-9b-chat 说明： glm4-9b模型必须使用版本4b556ad4d70c38924cb8c120adbf21a0012de6ce 22 mistral mistral-7b https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2 23 mixtral mixtral-8x7b https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1 24 llama3.1 llama3.1-8b https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct 25 llama3.1-70b https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct

AI开发平台MODELARTS
AI开发平台MODELARTS-场景介绍:方案概览

方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。提示：本文档适用于OBS+SFS Turbo的数据存储方案，不适用于仅OBS存储方案。通过OBS对象存储服务（Object Storage Service）与SFS Turbo文件系统联动，可以实现灵活数据管理、高性能读取等。

AI开发平台MODELARTS
AI开发平台MODELARTS-网卡名称错误

网卡名称错误当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称， export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称关于环境变量的解释可以参考：Distributed communication package - torch.distributed — PyTorch 2.3 documentation 父主题：常见错误原因和解决方法

AI开发平台MODELARTS
AI开发平台MODELARTS-训练tokenizer文件说明:ChatGLMv3-6B

ChatGLMv3-6B 在训练开始前，针对ChatGLMv3-6B模型中的tokenizer文件，需要修改代码。修改文件chatglm3-6b/tokenization_chatglm.py 。文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图2所示。图2 修改ChatGLMv3-6B tokenizer文件图3 修改ChatGLMv3-6B tokenizer文件

AI开发平台MODELARTS
AI开发平台MODELARTS-训练tokenizer文件说明:Yi模型

Yi模型在使用Yi模型的chat版本时，由于transformer 4.38版本的bug，导致在读取tokenizer文件时，加载的vocab_size出现类似如下尺寸不匹配的问题。 RuntimeError: Error(s) in loading state_dict for VocabParallelEmbedding: size mismatch for weight: copying a param with shape torch.Size([64000, 4096]) from checkpoint, the shape in current model is torch.Size([63992, 4096]). 需要在训练开始前，修改llm_train/AscendSpeed/yi/3_training.sh文件，并添加--tokenizer-not-use-fast参数。修改后如图1所示。图1 修改Yi 模型3_training.sh文件

AI开发平台MODELARTS
AI开发平台MODELARTS-训练的权重转换说明:HuggingFace转Megatron参数说明

HuggingFace转Megatron参数说明 --model-type：模型类型。 --loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir : 权重转换完成之后保存路径。 --tokenizer-model : tokenizer路径。

AI开发平台MODELARTS
AI开发平台MODELARTS-训练的权重转换说明:用户自定义执行权重转换参数修改说明

用户自定义执行权重转换参数修改说明如果用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式，以及Megatron 转 Hugging Face格式，而脚本使用hf2hg、mg2hf参数传递来区分。方法一：用户可打开scripts/llama2/2_convert_mg_hf.sh脚本，将执行的python命令复制下来，修改环境变量的值。在Notebook进入到 /home/ma-user/work/llm_train/AscendSpeed/ModelLink 路径中，再执行python命令。方法二：用户在Notebook直接编辑scripts/llama2/2_convert_mg_hf.sh脚本，自定义环境变量的值，并在脚本的首行中添加 cd /home/ma-user/work/llm_train/AscendSpeed/ModelLink 命令，随后在Notebook中运行该脚本。其中环境变量详细介绍如下：表1 权重转换脚本中的环境变量参数示例参数说明 $1 hf2hg、mg2hf 运行 2_convert_mg_hf.sh 时，需要附加的参数值。如下： hf2hg：用于Hugging Face 转 Megatron mg2hf：用于Megatron 转 Hugging Face TP 8 张量并行数，一般等于单机卡数 PP 1 流水线并行数，一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user/work/model/Llama2-13B 原始Hugging Face模型路径 CONVERT_MODEL_PATH /home/ma-user/work/llm_train/processed_for_ma_input/llama2-13b/converted_weights_TP8PP1 权重转换完成之后保存路径 TOKENIZER_PATH /home/ma-user/work/model/llama-2-13b-chat-hf tokenizer路径，即：原始Hugging Face模型路径 MODEL_SAVE_PATH /home/ma-user/work/llm_train/saved_dir_for_output/llama2-13b 训练完成后保存的权重路径。

AI开发平台MODELARTS
AI开发平台MODELARTS-训练的权重转换说明:Megatron转HuggingFace参数说明

Megatron转HuggingFace参数说明如果用户需要自动转换，则在训练作业中，添加变量CONVERT_MG2HF并赋值True。如果用户后续不需要自动转换，则在环境变量中必须删除CONVERT_MG2HF变量。 Megatron转HuggingFace脚本具体参数如下： --model-type：模型类型。 --save-model-type：输出后权重格式。 --load-dir：训练完成后保存的权重路径。 --save-dir：需要填入原始HF模型路径，新权重会存于../Llama2-13B/mg2hg下。 --target-tensor-parallel-size：任务不同调整参数target-tensor-parallel-size，默认为1。 --target-pipeline-parallel-size ：任务不同调整参数target-pipeline-parallel-size，默认为1。权重转换完成后，需要将转换后的文件与原始Hugging Face模型中的文件进行对比，查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json等tokenizer文件或者其他json文件。如果缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。

AI开发平台MODELARTS
AI开发平台MODELARTS-训练的数据集预处理说明:用户自定义执行数据处理脚本修改参数说明

用户自定义执行数据处理脚本修改参数说明如果用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。方法一：用户可打开scripts/llama2/1_preprocess_data.sh脚本，将执行的python命令复制下来，修改环境变量的值。在Notebook进入到 /home/ma-user/work/llm_train/AscendSpeed/ModelLink 路径中，再执行python命令。方法二：用户在Notebook中直接编辑scripts/llama2/1_preprocess_data.sh脚本，自定义环境变量的值，并在脚本的首行中添加 cd /home/ma-user/work/llm_train/AscendSpeed/ModelLink 命令，随后在Notebook中运行该脚本。其中环境变量详细介绍如下：表1 数据预处理中的环境变量环境变量示例参数说明 RUN_TYPE pretrain、sft、lora 数据预处理区分：预训练场景下数据预处理，默认参数：pretrain 微调场景下数据预处理，默认：sft / lora ORIGINAL_TRAIN_DATA_PATH /home/ma-user/work/training_data/finetune/moss_LossCompare.jsonl 原始数据集的存放路径。 TOKENIZER_PATH /home/ma-user/work/model/llama-2-13b-chat-hf tokenizer的存放路径，与HF权重存放在一个文件夹下。请根据实际规划修改。 PRO CES SED_DATA_PREFIX /home/ma-user/work/llm_train/processed_for_input/llama2-13b/data/pretrain/alpaca 处理后的数据集保存路径+数据集前缀。 TOKENIZER_TYPE PretrainedFromHF 可选项有：['BertWordPieceLowerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为 PretrainedFromHF 。 SEQ_LEN 4096 要处理的最大seq length。脚本会检测超出SEQ_LEN长度的数据，并打印log。

AI开发平台MODELARTS
AI开发平台MODELARTS-训练的数据集预处理说明:微调数据集预处理参数说明

微调数据集预处理参数说明微调包含SFT和LoRA微调。数据集预处理脚本参数说明如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：alpaca_gpt4_data） --tokenizer-type：tokenizer的类型，可选项有['BertWordPieceLowerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为PretrainedFromHF。 --tokenizer-name-or-path：tokenizer的存放路径，与HF权重存放在一个文件夹下。 --handler-name：生成数据集的用途，这里是生成的指令数据集，用于微调。 GeneralInstructionHandler：用于sft、lora微调时的数据预处理过程中，会对数据集full_prompt中的user_prompt进行mask操作。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。

AI开发平台MODELARTS
AI开发平台MODELARTS-训练的数据集预处理说明:预训练数据集预处理参数说明

预训练数据集预处理参数说明预训练数据集预处理脚本scripts/llama2/1_preprocess_data.sh中的具体参数如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：alpaca_gpt4_data）。 --tokenizer-type：tokenizer的类型，可选项有['BertWordPieceLowerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为PretrainedFromHF。 --tokenizer-name-or-path：tokenizer的存放路径，与HF权重存放在一个文件夹下。 --handler-name：生成数据集的用途，这里是生成的文本数据集，用于预训练。 GeneralPretrainHandler：默认。用于预训练时的数据预处理过程中，将数据集根据key值进行简单的过滤。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。

AI开发平台MODELARTS
AI开发平台MODELARTS-训练启动脚本说明和参数配置:模型推荐的参数与NPU卡数设置

模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量文本序列长度并行参数设置规格与节点数 1 llama2 llama2-7b SEQ_LEN=4096 TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend 2 llama2-13b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 3 llama2-70b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend 4 llama3 llama3-8b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 5 llama3-70b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend 6 Qwen qwen-7b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 7 qwen-14b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 8 qwen-72b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend 9 Qwen1.5 qwen1.5-7b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 10 qwen1.5-14b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 11 qwen1.5-32b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2 2*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend 12 qwen1.5-72b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend 13 Yi yi-6b SEQ_LEN=4096 TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend 14 yi-34b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=4 2*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend 15 ChatGLMv3 glm3-6b SEQ_LEN=4096 TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend 16 Baichuan2 baichuan2-13b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 17 Qwen2 qwen2-0.5b SEQ_LEN=4096 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend 18 qwen2-1.5b SEQ_LEN=4096 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend 19 qwen2-7b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 20 qwen2-72b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend 21 GLMv4 glm4-9b SEQ_LEN=4096 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend 22 mistral mistral-7b SEQ_LEN=4096 TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend 23 mixtral mixtral-8x7b SEQ_LEN=4096 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=8 2*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=2 PP(pipeline model parallel size)=8 2*节点 & 8*Ascend 24 llama3.1 llama3.1-8b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend 25 llama3.1-70b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend

AI开发平台MODELARTS
AI开发平台MODELARTS-查看日志和性能

查看日志和性能单击作业详情页面，则可查看训练过程中的详细信息。图1 查看训练作业在作业详情页的日志页签，查看最后一个节点的日志，其包含“elapsed time per iteration (ms)”数据，可换算为tokens/s/p的性能数据。吞吐量（tokens/s/p）：global batch size×seq_length/(总卡数×elapsed time per iteration)×1000，其global batch size（GBS）、seq_len（SEQ_LEN）为训练时设置的参数。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。图2 查看日志和性能父主题：主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）

AI开发平台MODELARTS
AI开发平台MODELARTS-LoRA微调训练:Step4 开启训练故障自动重启功能

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。当前功能还处于试验阶段，只有llama3-8B/70B适配。

AI开发平台MODELARTS
AI开发平台MODELARTS-LoRA微调训练:Step1 创建训练任务

Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的llm_train/AscendSpeed代码目录。图1 创建训练作业如果镜像使用使用基础镜像中的基础镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/obs_pipeline.sh

AI开发平台MODELARTS
AI开发平台MODELARTS-LoRA微调训练:Step2 配置数据输入和输出

Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。在“输入”的输入框内设置变量：ORIGINAL_TRAIN_DATA_PATH、ORIGINAL_HF_WEIGHT。 ORIGINAL_TRAIN_DATA_PATH：训练时指定的输入数据集路径。 ORIGINAL_HF_WEIGHT：加载tokenizer与Hugging Face权重时，对应的存放地址。在“输出”的输入框内设置变量：OUTPUT_SAVE_DIR、HF_SAVE_DIR。 OUTPUT_SAVE_DIR：训练完成后指定的输出模型路径。 HF_SAVE_DIR：训练完成的权重文件自动转换为Hugging Face格式权重输出的路径（确保添加CONVERT_MG2HF环境变量并设置为True）。分别单击“输入”和“输出”的数据存储位置，如图所示，选择OBS桶中指定的目录。ORIGINAL_TRAIN_DATA_PATH中则直接选中数据集文件。 “输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。

AI开发平台MODELARTS
AI开发平台MODELARTS-SFT全参微调训练:Step2 配置数据输入和输出

Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。在“输入”的输入框内设置变量：ORIGINAL_TRAIN_DATA_PATH、ORIGINAL_HF_WEIGHT。 ORIGINAL_TRAIN_DATA_PATH：训练时指定的输入数据集路径。 ORIGINAL_HF_WEIGHT：加载tokenizer与Hugging Face权重时，对应的存放地址。在“输出”的输入框内设置变量：OUTPUT_SAVE_DIR、HF_SAVE_DIR。 OUTPUT_SAVE_DIR：训练完成后指定的输出模型路径。 HF_SAVE_DIR：训练完成的权重文件自动转换为Hugging Face格式权重输出的路径（确保添加CONVERT_MG2HF环境变量并设置为True）。分别单击“输入”和“输出”的数据存储位置，如图所示，选择OBS桶中指定的目录。ORIGINAL_TRAIN_DATA_PATH中则直接选中数据集文件。 “输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。

AI开发平台MODELARTS
AI开发平台MODELARTS-SFT全参微调训练:Step4 开启训练故障自动重启功能

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。当前功能还处于试验阶段，只有llama3-8B/70B适配。

AI开发平台MODELARTS
AI开发平台MODELARTS-SFT全参微调训练:Step1 创建训练任务

Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的llm_train/AscendSpeed代码目录。图1 创建训练作业如果镜像使用使用基础镜像中的基础镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/obs_pipeline.sh

AI开发平台MODELARTS
AI开发平台MODELARTS-预训练:Step1 创建训练任务

Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的llm_train/AscendSpeed代码目录。图1 创建训练作业如果镜像使用使用基础镜像中的基础镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/obs_pipeline.sh

AI开发平台MODELARTS
AI开发平台MODELARTS-预训练:Step2 配置数据输入和输出

Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。在“输入”的输入框内设置变量：ORIGINAL_TRAIN_DATA_PATH、ORIGINAL_HF_WEIGHT。 ORIGINAL_TRAIN_DATA_PATH：训练时指定的输入数据集路径。 ORIGINAL_HF_WEIGHT：加载tokenizer与Hugging Face权重时，对应的存放地址。在“输出”的输入框内设置变量：OUTPUT_SAVE_DIR、HF_SAVE_DIR。 OUTPUT_SAVE_DIR：训练完成后指定的输出模型路径。 HF_SAVE_DIR：训练完成的权重文件自动转换为Hugging Face格式权重输出的路径（确保添加CONVERT_MG2HF环境变量并设置为True）。分别单击“输入”和“输出”的数据存储位置，如图所示，选择OBS桶中指定的目录。ORIGINAL_TRAIN_DATA_PATH中则直接选中数据集文件。 “输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。

AI开发平台MODELARTS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！