搜索_华为云

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
查看诊断报告 - AI开发平台ModelArts

rank，用于分析计算和任务下发的快慢卡)和集群带宽统计数值(slow link，用于分析集群中的网络通信慢链路)。点开slow rank模块，html中会基于表格展示每张卡不同step的计算耗时、通信耗时和空闲耗时。基于该表格，通常关注计算耗时(compute)和空闲耗时(free

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

基于advisor的昇腾训练性能自助调优指导 advisor调优总体步骤创建诊断任务查看诊断报告父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

upyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题： GPU相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

x内核模块，它允许支持P2P(Peer-to-Peer)的NVIDIA GPU直接进行内存访问(DMA)。这意味着数据可以直接在多个GPU之间传输，而无需经过CPU或系统内存，这可以显著降低延迟并提高带宽。所以既然nccl-tests能正常测试，但是达不到预期，可能是nv_peer_mem异常。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
精度对齐 - AI开发平台ModelArts
精度对齐 - AI开发平台ModelArts

精度对齐长训Loss比对结果使用Msprobe工具分析偏差 Loss对齐结果父主题： Dit模型Pytorch迁移与精度性能调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型Pytorch迁移与精度性能调优
创建诊断任务 - AI开发平台ModelArts

3.RC2、7.0.RC1、7.0.0和8.0.RC1。当运行环境实际cann版本与可选值不匹配时选择大版本相近的可选值即可。主要影响亲和api分析和aicpu算子分析。 2 torch_version 2.1.0 否可选值包括1.11.0和2.1.0，当运行环境实际torch版

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

性能调优 Profiling数据采集使用Advisor工具分析生成调优建议调优前后性能对比父主题： Dit模型Pytorch迁移与精度性能调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型Pytorch迁移与精度性能调优
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

安装nvidia-fabricmanager Ant系列GPU支持NvLink & NvSwitch，若您使用多GPU卡的机型，需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联，否则可能无法正常使用GPU实例。 nvidia-fabricmanager必须和nvidia driver版本保持一致。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
准备模型训练镜像 - AI开发平台ModelArts

案例参考：从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU）从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU）从0制作自定义镜像用于创建训练作业（Tensorflow+GPU）从0制作自定义镜像用于创建训练作业（MindSpore+Ascend）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
升级Standard专属资源池驱动 - AI开发平台ModelArts

升级Standard专属资源池驱动场景介绍当专属资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。驱动升级有两种升级方式：安全升级、强制升级。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？场景描述本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

将模型复制到多个GPU上将一个Batch的数据均分到每一个GPU上各GPU上的模型进行前向传播，得到输出主GPU（逻辑序号为0）收集各GPU的输出，汇总后计算损失分发损失，各GPU各自反向传播梯度主GPU收集梯度并更新参数，将更新后的模型参数分发到各GPU 具体流程图如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
训练迁移适配 - AI开发平台ModelArts

训练迁移适配完成环境准备之后，本节将详细介绍Dit模型训练迁移过程。执行以下命令，下载代码。 git clone https://github.com/facebookresearch/DiT.git cd Dit 执行以下命令，安装依赖项。 pip install diffusers==0

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型Pytorch迁移与精度性能调优
使用Msprobe工具分析偏差 - AI开发平台ModelArts

定为statistics表示使用统计量模式，该模式下针对整网训练API输入输出保存最大值、最小值、均值等统计量信息比对，落盘数据量较小。GPU和NPU环境依次进行数据Dump，正常执行结束标识如下图回显Exception: msprobe: exit after iteration

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型Pytorch迁移与精度性能调优 > 精度对齐
调优前后性能对比 - AI开发平台ModelArts

调优前后性能对比在完成上一章几类调优方式之后，在单卡场景下实测性能调优比对结果如下表所示：设备 batch_size Steps/Sec 1p-GPU A800 16 3.17 1p-NPU snt9b 313T 16 2.17 1p-NPU snt9b 313T调优后 16 2.58 父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型Pytorch迁移与精度性能调优 > 性能调优
Loss对齐结果 - AI开发平台ModelArts

需要注意训练引入随机性的目的是为了增加结果的鲁棒性，理论上不会对训练模型的收敛与否造成影响。此处做随机性固定主要的目的是为了训练结果可完全复现，从而实现NPU和标杆的精度对齐。父主题：精度对齐

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型Pytorch迁移与精度性能调优 > 精度对齐
从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。训练作业执行成功后，日志信息如图1所示。图1 1个计算节点GPU规格worker-0运行日志信息计算节点个数选择为2，训练作业也可以运行。日志信息如图2和图3所示。图2 2个计算节点worker-0运行日志信息

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

场景介绍当Lite Cluster资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助Lite Cluster资源池升级节点GPU/Ascend驱动的能力。约束限制 Lite Cl

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理

总条数： 618

上一页
1
...
4
5
6
...
31
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

精度对齐 - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

准备模型训练镜像 - AI开发平台ModelArts

升级Standard专属资源池驱动 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

训练迁移适配 - AI开发平台ModelArts

使用Msprobe工具分析偏差 - AI开发平台ModelArts

调优前后性能对比 - AI开发平台ModelArts

Loss对齐结果 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线