搜索_华为云

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

否，则联系技术支持排查节点状态。建议与总结环境变量NCCL_SOCKET_IFNAME用于指定通信的网卡名称。“NCCL_SOCKET_IFNAME=eth0”表示仅使用eth0网卡通信。该环境变量由系统自动注入，由于通信网卡名称不固定，因此训练代码不应默认设置该环境变量。环境变量NCCL_IB

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
MA-Advisor性能调优建议工具使用指导 - AI开发平台ModelArts

耗时拆分为计算、通信、调度三大维度，并针对计算和通信分别进行算子级别的比对；将训练占用的总内存，拆分成算子级别的内存占用进行比对。对于集群训练场景，昇腾提供了集群分析工具cluster_analysis，当前主要对基于通信域的迭代内耗时分析、通信时间分析以及通信矩阵分析为主，从而定位慢卡、慢节点以及慢链路问题。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ ModelArts提供AI诊断功能，用户可以通过NCCl Test，测试节点GPU状态，并且测试多个节点间的通信速度。操作步骤单击资源池名称，进入资源池详情。单击左侧“AI组件管理 > AI诊断”。单击“诊断”，选择“日志上传路径”和NCCL

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Cluster
管理训练容器环境变量 - AI开发平台ModelArts

00000000” ${MA_VJ_NAME}-${MA_TASK_NAME}-N.${MA_VJ_NAME} 表示不同节点的通信域名，例如0号节点的通信域名为 “${MA_VJ_NAME}-${MA_TASK_NAME}-0.${MA_VJ_NAME}”。 N表示实例数。例如，实例数为4时，此环境变量分别为

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
创建网络资源 - AI开发平台ModelArts

192.168.0.0/16~24。 connection 否 NetworkConnection object 当前网络与其他云服务的连通信息。表6 NetworkConnection 参数是否必选参数类型描述 peerConnectionList 否 Array of

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
训练作业卡死检测 - AI开发平台ModelArts

NCCL信息中报出Got completion with error 12, opcode 1, len 32478, vendor err 129等通信信息时，说明当前网络不是很稳定。解决方案3 可加入3个环境变量。 NCCL_IB_GID_INDEX=3：使用RoCE v2协议，默认使用RoCE

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

mxnet”之前可以看到节点间相互通信状态，同时ps能够重新发送。 import os os.environ['PS_VERBOSE'] = '2' os.environ['PS_RESEND'] = '1' 其中，“os.environ['PS_VERBOSE'] = '2'”为打印所有的通信信息。“os

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
服务启动失败 - AI开发平台ModelArts

模型可以正常启动，但是因为镜像中启用的端口非8080，或者镜像启用的端口与创建模型时配置的端口不一致，导致部署服务时register-agent无法与模型通信，超过一定时间后（最长20分钟）认为模型启动失败。需要检查两个地方：自定义镜像中的代码开放的端口和创建模型界面上配置的端口。确认两处端口

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

Ascend HCCL RANK_TABLE_FILE文件提供Ascend分布式训练作业的集群信息，用于Ascend芯片分布式通信，可以被HCCL集合通信库解析。该文件格式有模板一和模板二两个版本。 ModelArts提供的是模板二格式。ModelArts训练环境的Ascend HCCL

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
分布式训练功能介绍 - AI开发平台ModelArts

PU都会更高。 DistributedDataParallel进行多机多卡训练的优缺点通信更快：相比于DP，通信速度更快负载相对均衡：相比于DP，GPU负载相对更均衡运行速度快：因为通信时间更短，效率更高，能更快速地完成训练作业。相关章节创建单机多卡的分布式训练（Dat

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

户端推送事件。这种技术通常用于实现服务器向客户端推送实时数据，例如聊天应用、实时新闻更新等。 SSE主要解决了客户端与服务器之间的单向实时通信需求（例如ChatGPT回答的流式输出），相较于WebSocket（双向实时），它更加轻量级且易于实现。前提条件在线服务中的模型导入选择的镜像需支持SSE协议。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

多机之间使用gloo通信时需要指定网口名称， export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

多机之间使用gloo通信时需要指定网口名称， export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
删除网络资源 - AI开发平台ModelArts

0/12~24 192.168.0.0/16~24。 connection NetworkConnection object 当前网络与其他云服务的连通信息。表7 NetworkConnection 参数参数类型描述 peerConnectionList Array of peerConnectionList

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询网络资源 - AI开发平台ModelArts

0/12~24 192.168.0.0/16~24。 connection NetworkConnection object 当前网络与其他云服务的连通信息。表7 NetworkConnection 参数参数类型描述 peerConnectionList Array of peerConnectionList

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询网络资源列表 - AI开发平台ModelArts

0/12~24 192.168.0.0/16~24。 connection NetworkConnection object 当前网络与其他云服务的连通信息。表10 NetworkConnection 参数参数类型描述 peerConnectionList Array of peerConnectionList

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

分布式训练。 master_addr：主任务（rank 0）的地址，设置为任务worker-0的通信域名。 master_port：在主任务（rank 0）上，用于分布式训练期间通信的端口。默认设置为18888端口。当遇到master_port冲突问题时，可通过设置MA_TORC

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
创建诊断任务 - AI开发平台ModelArts

analysis_dimensions computation, communication, schedule, memory 否默认进行计算、通信、下发和内存的全维度分析。可以指定默认值中任意单维度进行分析，如仅指定computation进行计算维度分析，仅指定schedule进行下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

卡、千卡及以上规模的可视化集群性能分析，助力开发者天级完成性能调优。 MindStudio-Insight提供时间线视图、内存、算子耗时、通信瓶颈分析等功能，借助于数据库支持超大性能数据处理，可以支持20GB的集群性能文件分析，并且能够支持大模型场景下的性能调优，相比于Chrom

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

ling数据进行性能拆解和分类比对，展示算子、通信、内存等类别的性能比对数据。下载工具源码使用。性能比对工具 cluster_analyse 集群性能分析工具，采集好的多机Profiling数据可通过该工具分析集群通信耗时、通信带宽矩阵等内容，从而辅助定位慢卡、慢节点等问题。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理

总条数： 262

上一页
1
2
3
4
5
...
14
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

MA-Advisor性能调优建议工具使用指导 - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

创建网络资源 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

分布式训练功能介绍 - AI开发平台ModelArts

使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

删除网络资源 - AI开发平台ModelArts

查询网络资源 - AI开发平台ModelArts

查询网络资源列表 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线