搜索_华为云

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

retrying”。原因分析 NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业详情页，单击“日志”页签，查看NCCL报错。如果出现报错“NCCL

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
Standard开发环境 - AI开发平台ModelArts

开发环境提供的预置镜像版本是依据用户反馈和版本稳定性决定的。当用户的功能开发基于ModelArts提供的版本能够满足的时候，建议用户使用预置镜像，这些镜像经过充分的功能验证，并且已经预置了很多常用的安装包，用户无需花费过多的时间来配置环境即可使用。开发环境提供的预置镜像主要包含：

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
预训练任务 - AI开发平台ModelArts

权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。步骤二修改训练超参配置以 llama2-70b 和 llama2-13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909）
SFT全参微调任务 - AI开发平台ModelArts

必填。训练时指定的输入数据路径。一般为数据地址/处理后的数据前缀名，不加文件类型后缀。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/ws/tokenizers/Llama2-70B 必填。加载tokenizer时，tokenizer存放地址。请根据实际规划修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > SFT全参微调训练
删除网络资源 - AI开发平台ModelArts

Turbo的ID。 name String SFS Turbo的名称。 status String 与SFS Turbo的连接状态信息。可选值如下： Active：SFS连通状态正常 Abnormal：SFS连通状态异常 ipAddr String SFS Turbo的访问地址。状态码：404

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Standard上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。适配的CANN版本是cann_8.0.rc2，驱动版本是23.0.5。本文档适用于OBS+SFS Turbo的数据存储方案，不适用于仅使用OBS的存储方案。通过OBS对象存储服务（Object

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Standard运行的，需要购买并开通ModelArts专属资源池和OBS桶。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备权重准备所需的权重文件。准备代码准备AscendSpeed训练代码。准备镜像准备训练模型适用的容器镜像。准备Notebook

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
使用SDK调测单机训练作业 - AI开发平台ModelArts

参数session即是1初始化的数据。返回的是一个字典，其中flavors值是一个列表，描述了训练服务支持的所有规格的信息。每个元素中flavor_id是可直接用于远程训练任务的计算规格，max_num是该规格的最大节点数。如果用户知道要使用的计算规格，可以略过这一步。提交远程训练作业。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
训练作业运行失败排查指导 - AI开发平台ModelArts

label_map.pbtxt.”。如果使用的是AI Gallery订阅的算法，建议先检查数据的标签是否有问题。如果使用的是物体检测类算法，建议检查数据的label框是否为非矩形。物体检测类算法仅支持矩形label框。查看训练作业的“日志”，出现报错“RuntimeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
推理场景介绍 - AI开发平台ModelArts

6。适配的CANN版本是cann_8.0.rc3。资源规格要求本文档中的模型运行环境是ModelArts Lite的Lite k8s Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。支持的模型列表和权重文件本方案支持vLLM的v0.6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

instruction：描述模型应执行的任务。指令中的每一条都是唯一的。 input：任务的可选上下文或输入。instruction 对应的内容会与 input 对应的内容拼接后作为指令，即指令为 instruction\ninput。 output：生成的指令的答案。 system：系统提

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.5.901） > 准备工作
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

instruction：描述模型应执行的任务。指令中的每一条都是唯一的。 input：任务的可选上下文或输入。instruction 对应的内容会与 input 对应的内容拼接后作为指令，即指令为 instruction\ninput。 output：生成的指令的答案。 system：系统提

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
推理精度测试 - AI开发平台ModelArts

ss使用humaneval数据集时，需要执行模型生成的代码。请仔细阅读human_eval/execution.py文件第48-57行的注释，内容参考如下。了解执行模型生成代码可能存在的风险，如果接受这些风险，请取消第58行的注释，执行下面步骤5进行评测。 # WARNING #

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练和SFT全参微调使用的是同一个HuggingFace权重文件，转换为Megatron格式后的结果也是通用的。如果在SFT微调任务中已经完成了HuggingFace权重转换操作，此处无需重复操作，可以直接使用SFT微调中的权重转换结果。如果前面没有执行Hugg

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Lite Server上的预训练和全量微调方案。训练框架使用的是ModelLink。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。约束限制本文档适配昇腾云ModelArts 6.5.901版本，请参考表1获取配套版本的软件包，请严格遵照版本配套关系使用本文档。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

908版本新增如下内容：文档中新增对Llama3.1的适配。 ModelLink框架和MindSpeed已升级到最新版本。支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表序号支持模型支持模型参数量权重文件获取地址 1 llama2 llama2-7b https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
查询数据集导入任务列表 - AI开发平台ModelArts

String 用户GaussDB(DWS)集群的IP地址。 port String 用户GaussDB(DWS)集群的端口。 queue_name String 表格数据集，DLI队列名。 subnet_id String MRS集群的子网ID。 table_name String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Lite Cluster上的训练方案。训练框架使用的是ModelLink。本方案目前仅适用于企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。约束限制本文档适配昇腾云ModelArts6.5.901版本，请参考表1获取配套版本的软件包，请严格遵照版本配套关系使用本文档。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.5.901）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Standard运行的，需要购买并开通ModelArts专属资源池和OBS桶。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备权重准备所需的权重文件。准备代码准备AscendSpeed训练代码。准备镜像准备训练模型适用的容器镜像。准备Notebook

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
创建网络资源 - AI开发平台ModelArts

Turbo的ID。 name String SFS Turbo的名称。 status String 与SFS Turbo的连接状态信息。可选值如下： Active：SFS连通状态正常 Abnormal：SFS连通状态异常 ipAddr String SFS Turbo的访问地址。状态码：400

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理

总条数： 967

上一页
1
...
38
39
40
...
49
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

Standard开发环境 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

SFT全参微调任务 - AI开发平台ModelArts

删除网络资源 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

使用SDK调测单机训练作业 - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

查询数据集导入任务列表 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

创建网络资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线