-
不同机型的对应的软件配套版本 - AI开发平台ModelArts
RoCE:RDMA over Converged Ethernet(RoCE)是一种网络协议,允许应用通过以太网实现远程内存访问。 IB:InfiniBand (IB) 是一种高性能计算机网络通信协议,专为高性能计算和数据中心互连设计。
-
WebSocket访问在线服务 - AI开发平台ModelArts
WebSocket访问在线服务 背景说明 WebSocket是一种网络传输协议,可在单个TCP连接上进行全双工通信,位于OSI模型的应用层。WebSocket协议在2011年由IETF标准化为RFC 6455,后由RFC 7936补充规范。
-
WebSocket在线服务全流程开发 - AI开发平台ModelArts
WebSocket在线服务全流程开发 背景说明 WebSocket是一种网络传输协议,可在单个TCP连接上进行全双工通信,位于OSI模型的应用层。WebSocket协议在2011年由IETF标准化为RFC 6455,后由RFC 7936补充规范。
-
NPU Snt9B集合通信算子单机多卡性能测试指导 - AI开发平台ModelArts
NPU Snt9B集合通信算子单机多卡性能测试指导 场景描述 本文介绍如何使用在NPU Snt9B服务器上进行集合通信算子性能测试,包括的集合通信算子:allreduce、reducescatter、allgather、all2all。
-
NPU Snt9B集合通信算子多机多卡性能测试指导 - AI开发平台ModelArts
NPU Snt9B集合通信算子多机多卡性能测试指导 场景描述 本文介绍如何使用在2台NPU Snt9B服务器上进行集合通信算子多机性能测试,包括的集合通信算子:allreduce、reducescatter、allgather、all2all。
-
使用边缘节点部署边缘服务能否使用http接口协议? - AI开发平台ModelArts
使用边缘节点部署边缘服务能否使用http接口协议? 系统默认使用https。
-
在容器镜像中安装MLNX - AI开发平台ModelArts
因此可以在容器镜像中安装MLNX_OFED,使得NCCL可以启用该网卡,提高跨节点通信效率。 NCCL启用该网卡后,跨节点通信采用的方法为NET/IB。未启用该网卡时,跨节点通信采用的方法为NET/Socket。NET/IB在时延与带宽方面都要优于NET/Socket。
-
在Lite资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts
在Lite资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力,在使用NPU的场景下,支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划,进而提升节点之间的通信速度。
-
GPU裸金属服务器无法Ping通的解决方案 - AI开发平台ModelArts
Oracle 1521 Oracle通信端口,弹性云服务器上部署了Oracle SQL需要放行的端口。 MySQL 3306 MySQL数据库对外提供服务的端口。
-
精度对齐 - AI开发平台ModelArts
多卡相对于单卡,会有卡与卡之间的通信,这可能也是精度偏差的一种来源。所以多卡的精度对齐问题相对于单卡会更复杂。不过针对多卡的精度问题,可以分步骤先保证单卡对齐精度,然后分析通信过程的偏差。本文针对单卡的情形给出基于ptdbg-ascend精度对比工具的精度排查过程。
-
使用SFS盘出现报错rpc - AI开发平台ModelArts
CIFS的网络协议。
-
ModelArts通过OBS的API访问OBS中的文件,算内网还是公网? - AI开发平台ModelArts
在同一区域,ModelArts通过OBS的API访问OBS中的文件属于内网通信,不消耗公网流量费。 若是通过互联网从OBS下载数据到本地,这时候会产生OBS公网流量费。OBS的详细计费说明可以参见计费项。 父主题: API/SDK
-
infiniband驱动的安装 - AI开发平台ModelArts
infiniband驱动的安装 infiniband驱动的安装 如果安装了libibverbs-dev库后仍然无法使能infiniband网卡,您可以直接安装infiniband官方驱动,以使用infiniband网卡进行分布式通信,提升训练性能。
-
在线服务预测报错ModelArts.4503 - AI开发平台ModelArts
根据tcp协议,连接的断开可以由该连接的client端发起,也可以由server端发起。断开连接需要经过四次握手,所以可能会存在作为服务端的模型服务侧发起断开连接,但是该连接正在被作为客户端的ModelArts使用,从而导致通信出错,返回此错误信息。
-
日志提示“no socket interface found” - AI开发平台ModelArts
最后造成IB通信断连,偶发上述现象。
-
AI诊断 - AI开发平台ModelArts
AI诊断 用户可以通过NCCl Test,测试节点GPU状态,并且测试多个节点间的通信速度。 操作步骤 单击资源池名称,进入资源池详情。 单击左侧“AI组件管理 > AI诊断”。
-
Server-Sent Events访问在线服务 - AI开发平台ModelArts
SSE主要解决了客户端与服务器之间的单向实时通信需求(例如ChatGPT回答的流式输出),相较于WebSocket(双向实时),它更加轻量级且易于实现。 前提条件 在线服务中的AI应用导入选择的镜像需支持SSE协议。 约束与限制 SSE协议只支持部署在线服务。
-
MXNet创建kvstore时程序被阻塞,无报错 - AI开发平台ModelArts
处理方法 将如下代码放在“启动文件”里“import mxnet”之前可以看到节点间相互通信状态,同时ps能够重新发送。
-
训练中途卡死 - AI开发平台ModelArts
pytorch如果开了sync-batch-norm,多机会慢,因开了sync-batch-norm以后,每一个iter里面每个batch-norm层都要做同步,通信量很大,而且要所有节点同步。
-
多机多卡数据并行-DistributedDataParallel(DDP) - AI开发平台ModelArts
具体流程图如下: 图1 多机多卡数据并行训练 DistributedDataParallel进行多机多卡训练的优缺点 通信更快:相比于DP,通信速度更快 负载相对均衡:相比于DP,GPU负载相对更均衡 运行速度快:因为通信时间更短,效率更高,能更快速的完成训练任务 代码改造点 引入多进程启动机制