搜索_华为云

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

returned Connection refused, retrying”。原因分析 NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

文档中新增对Llama3.1的适配。 ModelLink框架和MindSpeed已升级到最新版本。支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表序号支持模型支持模型参数量权重文件获取地址 1 llama2 llama2-7b https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
预训练任务 - AI开发平台ModelArts

如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。步骤二修改训练超参配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910）
预训练任务 - AI开发平台ModelArts

如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。步骤二修改训练超参配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
使用SmoothQuant量化 - AI开发平台ModelArts

# 安装量化模块的脚本 ... 具体操作如下：配置需要使用的NPU卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 NPU卡编号可以通过命令npu-smi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
准备Notebook - AI开发平台ModelArts

sh，该命令用于git clone完整的代码包和安装必要的依赖包，每次启动训练作业时会执行该命令安装。您可以在Notebook中导入完代码之后，在Notebook运行sh scripts/install.sh命令提前下载完整代码包和安装依赖包，然后使用保存镜像功能。后续训练作业

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
下载数据 - AI开发平台ModelArts
下载数据 - AI开发平台ModelArts

数据集”，进入数据页面，该页面展示了所有共享的数据集。搜索业务所需的数据集，请参见查找和收藏资产。单击目标数据集进入详情页面。在详情页面可以查看数据集的“描述”、“预览”、“限制”、“版本”和“评论”等信息。在详情页面单击“下载”。弹出“选择云服务区域”，选择区域后单击“确定

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
查询Workflow工作流 - AI开发平台ModelArts

最大执行时间。表9 DataRequirement 参数参数类型描述 name String 训练数据的名称。填写1-64位，仅包含英文、数字、下划线（_）和中划线（-），并且以英文开头的名称。 type String 数据来源类型。枚举值如下： dataset：数据集 obs：OBS

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
预训练任务 - AI开发平台ModelArts

如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。步骤二修改训练超参配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

911版本仅是使用run_type来指定训练的类型，只能区分预训练、全参微调和lora微调但实际上预训练和sft是训练的不同阶段，全参、lora是训练参数设置方式。为了更加明确的区分不同策略，以及和llama-factory对齐，6.3.912版本调整以下参数：新增 STAGE，表示训练的阶段，可以选择的参数包括:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912）
通过patch操作对服务进行更新 - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务ID。请求参数表2 请求Header参数参数是否必选参数类型描述 X-ModelArts-User-ID 否 String 委托Token校验workspace时需要填写user id。 X-Auth-Token

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
使用SmoothQuant量化 - AI开发平台ModelArts

配置需要使用的NPU卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡，若希望使用第一和第二张卡，则“export A

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

配置需要使用的NPU卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡，如果希望使用第一和第二张卡，则“export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
查看批量服务详情 - AI开发平台ModelArts

事件保存周期为1个月，1个月后自动清理数据。查看服务的事件类型和事件信息，请参见查看在线服务的事件日志展示当前服务下每个模型的日志信息。包含最近5分钟、最近30分钟、最近1小时和自定义时间段。自定义时间段您可以选择开始时间和结束时间。当服务启用运行日志输出后，页面展示存放到云日

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
创建网络资源 - AI开发平台ModelArts

orks 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数表2 请求Body参数参数是否必选参数类型描述 apiVersion 是 String API版本。可选值如下： v1

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
更新服务配置 - AI开发平台ModelArts

_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务ID。请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。训练框架使用的是ModelLink。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

911版本仅是使用run_type来指定训练的类型，只能区分预训练、全参微调和lora微调但实际上预训练和sft是训练的不同阶段，全参、lora是训练参数设置方式。为了更加明确的区分不同策略，以及和llama-factory对齐，6.3.912版本调整以下参数：新增 STAGE，表示训练的阶段，可以选择的参数包括:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912）
步骤总览 - AI开发平台ModelArts
步骤总览 - AI开发平台ModelArts

购买容器镜像服务SWR 创建网络购买ModelArts专属资源池基本配置：权限配置 obsutils安装和配置（可选）工作空间配置训练：线下容器镜像构建及调试上传镜像上传数据和算法至OBS（首次使用时需要）使用Notebook进行代码调试创建训练任务单机多卡资源购买：

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
准备预测分析数据 - AI开发平台ModelArts

数据集。将原始.xlsx格式的数据转换为.csv格式的数据的方法如下：将原始表格数据（.xlsx）另存。单击“文件>另存为”，选择本地地址后，下拉选择“保存类型”为“CSV (逗号分隔)(*.csv)”单击“保存”，在弹窗中，单击“确定”后就可以将.xlsx格式数据集转换为.csv格式。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析

总条数： 990

上一页
1
...
36
37
38
...
50
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

下载数据 - AI开发平台ModelArts

查询Workflow工作流 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

通过patch操作对服务进行更新 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

查看批量服务详情 - AI开发平台ModelArts

创建网络资源 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

步骤总览 - AI开发平台ModelArts

准备预测分析数据 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线