搜索_华为云

训练中的权重转换说明 - AI开发平台ModelArts

Face 转 Megatron mg2hf：用于Megatron 转 Hugging Face TP 8 张量并行数，一般等于单机卡数 PP 1 流水线并行数，一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user/ws/model/Llama2-13B

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练中的权重转换说明 - AI开发平台ModelArts

Face 转 Megatron mg2hf：用于Megatron 转 Hugging Face TP 8 张量并行数，一般等于单机卡数 PP 1 流水线并行数，一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user/ws/model/Llama2-13B

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明参考
训练中的权重转换说明 - AI开发平台ModelArts

Face 转 Megatron mg2hf：用于Megatron 转 Hugging Face TP 8 张量并行数，一般等于单机卡数 PP 1 流水线并行数，一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user/ws/llm_train/tokenizers/Llama2-13B

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
训练的数据集预处理说明 - AI开发平台ModelArts

owerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为PretrainedFromHF。 --tokenizer-name-or-path：tokenizer的存放路径，与HF权重存放在一个文件夹下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

owerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为PretrainedFromHF。 --tokenizer-name-or-path：tokenizer的存放路径，与HF权重存放在一个文件夹下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

owerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为PretrainedFromHF。 --tokenizer-name-or-path：tokenizer的存放路径，与HF权重存放在一个文件夹下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

owerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为PretrainedFromHF。 --tokenizer-name-or-path：tokenizer的存放路径，与HF权重存放在一个文件夹下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
训练中的权重转换说明 - AI开发平台ModelArts

Face 转 Megatron mg2hf：用于Megatron 转 Hugging Face TP 8 张量并行数，一般等于单机卡数 PP 1 流水线并行数，一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user/ws/model/Llama2-13B

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明参考
LoRA微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_lora_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

对象存储服务提供按需计费和包年包月两种计费模式，用户可以根据实际需求购买OBS服务。 OBS服务支持以下两种存储方式，单机单卡场景使用文件系统，多机多卡场景使用普通OBS桶。创建普通OBS桶创建并行文件系统虚拟私有云VPC 虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网络环境。通过打通专属资源池

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

Snt9裸金属服务器支持的镜像详情镜像名称：ModelArts-Euler2.8_Aarch64_Snt9_C78 表1 镜像详情软件类型版本详情操作系统 EulerOS 2.0 (SP8) 内核版本 4.19.36-vhulk1907.1.0.h619.eulerosv2r8.aarch64

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_sft_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
策略及授权项说明 - AI开发平台ModelArts

略中必须包含允许“modelarts:notebook:create”的授权项，该接口才能调用成功。支持的授权项策略包含系统策略和自定义策略，如果系统策略不满足授权要求，管理员可以创建自定义策略，并通过给用户组授予自定义策略来进行精细的访问控制。策略支持的操作与API相对应，授权项列表说明如下：

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
查看训练作业事件 - AI开发平台ModelArts

查看训练作业事件训练作业的（从用户可看见训练作业开始）整个生命周期中，每一个关键事件点在系统后台均有记录，用户可随时在对应训练作业的详情页面进行查看。方便用户更清楚的了解训练作业运行过程，遇到任务异常时，更加准确的排查定位问题。当前支持的作业事件如下所示：训练作业创建成功训练作业创建失败报错：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

数据准备完成后，启动训练的脚本，查看训练是否能够正常拉起。一般来说，启动脚本为： cd /cache/code/ python start_train.py 如果训练流程不符合预期，可以在容器实例中查看日志、错误等，并进行代码、环境变量的修正。预置脚本测试整体流程一般使用run.sh封装训练外的文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
LoRA微调训练 - AI开发平台ModelArts

GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 CP 1 表示context并行，默认为1。应用于训练长序列文本的模型。如果训练时SEQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
不同机型的对应的软件配套版本 - AI开发平台ModelArts

节点资源，不同机型的节点对应的操作系统、适用的CCE集群版本等不相同，为了便于您制作镜像、升级软件等操作，本文对不同机型对应的软件配套版本做了详细介绍。裸金属服务器的对应的软件配套版本表1 裸金属服务器类型卡类型 RDMA网络协议操作系统适用范围、约束依赖插件 NPU

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
查看ModelArts模型事件 - AI开发平台ModelArts

查看ModelArts模型事件创建模型的（从用户可看见创建模型任务开始）过程中，每一个关键事件点在系统后台均有记录，用户可随时在对应模型的详情页面进行查看。方便用户更清楚的了解创建模型过程，遇到任务异常时，更加准确的排查定位问题。可查看的事件点包括：事件类型事件信息（“XXX”表示占位符，以实际返回信息为准）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

和类型)需与数据集一致，支持自动获取所选择表的schema。DLI的详细功能说明，请参考DLI用户指南。图1 DLI导入数据队列名称：系统自动将当前账号下的DLI队列展现在列表中，用户可以在下拉框中选择需要的队列。数据库名称：根据选择的队列展现所有的数据库，请在下拉框中选择您所需的数据库。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集

总条数： 851

上一页
1
...
9
10
11
...
43
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

策略及授权项说明 - AI开发平台ModelArts

查看训练作业事件 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

查看ModelArts模型事件 - AI开发平台ModelArts

从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线