-
训练前卡死 - AI开发平台ModelArts
NCCL_IB_GID_INDEX=3: 使用RoCE v2协议,默认使用RoCE v1,但是v1在交换机上没有拥塞控制,可能丢包,而且后面的交换机不会支持v1,就无法启动。 NCCL_IB_TC=128:数据包走交换机的队列4通道,这是RoCE协议标准。
-
优化算子下发 - AI开发平台ModelArts
常用的优化方法有进程绑核(详见性能调优五板斧)、启用机器的cpu高性能模式、使用高性能磁盘、多级多卡训练场景下通信优化等。 融合多个算子的逻辑为单算子,从而减少算子下发的数量,请参见NPU融合算子API和亲和优化器。
-
从AI Gallery订阅的Workflow如何使用 - AI开发平台ModelArts
从AI Gallery的Workflow资产页面,选择并订阅一个Workflow,勾选“我已阅读 《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》”后,单击“继续订阅”。
-
创建相同帐户下的VPC对等连接 - AI开发平台ModelArts
创建相同帐户下的VPC对等连接 对等连接是建立在两个VPC之间的网络连接,不同VPC之间网络不通,通过对等连接可以实现同一个区域下的不同VPC之间的云上内网通信。 本章节指导用户创建相同帐户下的VPC对等连接,即连通的两个VPC位于同一个帐户下。
-
动态挂载OBS并行文件系统 - AI开发平台ModelArts
其本质是通过挂载工具,将对象协议转为POSIX文件协议。挂载后应用层可以在容器中正常操作OBS对象。 动态挂载适用于哪些使用场景 场景1:数据集预览和操作,将承载数据集的OBS挂载至Notebook中,可以像本地文件系统一样操作数据集。
-
裸金属服务器支持IPV6解决方案 - AI开发平台ModelArts
裸金属服务器支持IPV6需要依赖规格、镜像、子网、安全组,对这些依赖项设置完成后,即可以在该裸金属服务上使用IPV6进行网络通信。 操作步骤 确认裸金属服务器规格支持IPV6。
-
集成在线服务 - AI开发平台ModelArts
集成方式 ModelArts在线服务提供的API是一个标准的Restful API,可使用HTTPS协议访问。ModelArts提供了SDK用于调用在线服务API,SDK调用方式请参见《SDK参考》>“场景1:部署在线服务Predictor的推理预测”。
-
预置预测分析模式 - AI开发平台ModelArts
预测请求路径“/”,请求协议为“HTTP”,请求方法为“POST”,调用方需采用“application/json”内容类型,发送预测请求,请求体以“JSON”格式表示,“JSON”字段说明请参见表1。
-
准备数据 - AI开发平台ModelArts
在弹出的窗口中,勾选“我已阅读并同意 《数据安全与隐私风险承担条款》 和 《华为云AI Gallery服务协议》”后,单击“继续订阅”。 订阅完成后,单击“前往控制台”,选择云服务区域为“华北-北京四”,单击“确定”后系统页面会自动跳转至“算法管理>我的订阅”。
-
预置物体检测模式 - AI开发平台ModelArts
预测请求路径“/”,请求协议为“HTTP”,请求方法为“POST”,调用方需采用“multipart/form-data”内容类型,以“key”为“images”,“type”为“file”的格式输入待处理图片。选择该模式时需确保您的模型能处理key为images的输入数据。
-
预置图像处理模式 - AI开发平台ModelArts
预测请求路径“/”,请求协议为“HTTPS”,请求方法为“POST”,调用方需采用“multipart/form-data”内容类型,以“key”为“images”,“type”为“file”的格式输入待处理图片。选择该模式时需确保您的模型能处理key为images的输入数据。
-
训练作业运行失败,出现NCCL报错 - AI开发平台ModelArts
建议与总结 环境变量NCCL_SOCKET_IFNAME用于指定通信的网卡名称。“NCCL_SOCKET_IFNAME=eth0”表示仅使用eth0网卡通信。该环境变量由系统自动注入,由于通信网卡名称不固定,因此训练代码不应默认设置该环境变量。
-
PyTorch - AI开发平台ModelArts
网络通信介绍 单机作业不涉及网络通信情况。 分布式作业的涉及网络通信则可以分为节点内网络通信和节点间网络通信。 节点内网络 使用NVLink和共享内存通信。 节点间网络 当计算节点个数大于1时,将启动PyTorch引擎分布式训练模式。
-
Horovod/MPI/MindSpore-GPU - AI开发平台ModelArts
网络通信介绍 单机作业不涉及网络通信情况。 分布式作业的涉及网络通信则可以分为节点内网络通信和节点间网络通信。 节点内网络 使用NVLink和共享内存通信。 节点间网络 当计算节点个数大于1时,将启动PyTorch引擎分布式训练模式。
-
Ascend-Powered-Engine - AI开发平台ModelArts
网络通信介绍 单机作业不涉及网络通信情况。 分布式作业的涉及网络通信则可以分为节点内网络通信和节点间网络通信。 节点内网络 使用HCCS和共享内存通信。 节点间网络 worker之间可通过容器网络和Ascend加速卡上的RoCE网络通信。
-
Tensorflow - AI开发平台ModelArts
网络通信介绍 单机作业不涉及网络通信情况。 分布式作业的涉及网络通信则可以分为节点内网络通信和节点间网络通信。 节点内网络 节点内网络通信即同一个节点上的ps和woker间的网络通信,又可以分为两种情况:容器网络和主机网络。 在使用公共规格进行训练时,使用的是容器网络。
-
模型训练 - AI开发平台ModelArts
所以分布式加速的调优是一个系统工程,需要从硬件角度(芯片、硬件设计)考虑分布式训练架构,如系统的整体计算规格、网络带宽、高速缓存、功耗、散热等因素,充分考虑计算和通信的吞吐量关系,以实现计算和通信时延的隐藏。
-
DevServer资源使用 - AI开发平台ModelArts
NPU Snt9B集合通信算子多机多卡性能测试指导 NPU Snt9B RoCE网卡带宽测试指导方案 NPU Snt9B如何快速使用Container-NPU模式 关闭和开启RoCE网卡网口 NPU Snt9B裸金属服务器算力查询 NPU Snt9B裸金属服务器docker网络配置方案
-
单机多卡数据并行-DataParallel(DP) - AI开发平台ModelArts
通信瓶颈 :负责reducer的GPU更新模型参数后分发到不同的GPU,因此有较大的通信开销。 GPU负载不均衡:负责reducer的GPU需要负责汇总输出、计算损失和更新权重,因此显存和使用率相比其他GPU都会更高。
-
使用自定义镜像创建训练作业(Ascend) - AI开发平台ModelArts
HCCL集合通信库解析。