搜索_华为云

调优前后性能对比 - AI开发平台ModelArts

调优前后性能对比在完成上一章几类调优方式之后，在单卡场景下实测性能调优比对结果如下表所示：设备 batch_size Steps/Sec 1p-GPU Ant8 16 3.17 1p-NPU snt9b 313T 16 2.17 1p-NPU snt9b 313T调优后 16 2.58 父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优
异构资源配置 - 云容器引擎 CCE

异构资源配置 GPU配置 GPU虚拟化：CCE GPU虚拟化采用自研xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU量，提高

 帮助中心 > 云容器引擎 CCE > 用户指南 > 配置中心
场景介绍及环境准备 - AI开发平台ModelArts

代了U-Net，处理图像生成和去噪等任务。核心思想是通过Transformer的自注意力机制来捕捉序列中的依赖关系，从而提高生成图像的质量。研究表明，具有较高GFLOPs的DiT模型在图像生成任务中表现更好，尤其是在ImageNet 512×512和256×256的测试中，DiT-XL/2模型实现了2

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优
advisor调优总体步骤 - AI开发平台ModelArts

stage0的8号卡和pp stage3的60号卡。查看对8号卡的降频分析（图7）可以发现节点降频主要影响了FlashAttention和MatMul两类算子，导致这两类算子的计算性能劣化，从而影响了整体的训练性能。按照html中给出的建议，需要检查8号卡和60号卡对应节点的温度和最大功率。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
使用Msprobe工具分析偏差 - AI开发平台ModelArts

定为statistics表示使用统计量模式，该模式下针对整网训练API输入输出保存最大值、最小值、均值等统计量信息比对，落盘数据量较小。GPU和NPU环境依次进行数据Dump，正常执行结束标识如下图回显Exception: msprobe: exit after iteration

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
如何处理可恢复的Xid故障问题 - 弹性云服务器 ECS

13 Graphics Engine Exception，非硬件故障，可能是指令错误等。 31 GPU memory page fault，非硬件故障，可能访问了非法地址等。 43 GPU stopped processing，非硬件故障，可能是自身软件错误。详情可以参考NVI

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
Profiling数据采集 - AI开发平台ModelArts

Profiling数据采集在train.py的main()函数Step迭代处添加配置，添加位置如下图所示：此处需要注意的是prof.step()需要加到dataloder迭代循环的内部以保证采集单个Step迭代的Profiling数据。更多信息，请参见Ascend PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优
创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

将模型复制到多个GPU上将一个Batch的数据均分到每一个GPU上各GPU上的模型进行前向传播，得到输出主GPU（逻辑序号为0）收集各GPU的输出，汇总后计算损失分发损失，各GPU各自反向传播梯度主GPU收集梯度并更新参数，将更新后的模型参数分发到各GPU 具体流程图如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
边缘节点支持多个显卡么？ - 智能边缘平台 IEF

边缘节点支持多个显卡么？边缘节点支持多个显卡，但是多个显卡的GPU型号必须相同。当前支持Nvidia Tesla系列P4、P40、T4等型号GPU，含有GPU硬件的机器作为边缘节点时可以不使用GPU。父主题：边缘节点

 帮助中心 > 智能边缘平台 IEF > 常见问题 > 边缘节点
升级Standard专属资源池驱动 - AI开发平台ModelArts

升级Standard专属资源池驱动场景介绍当专属资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。驱动升级有两种升级方式：安全升级、强制升级。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
亲和与反亲和调度 - 云容器引擎 CCE

节点亲和的规则只能影响Pod和节点之间的亲和，Kubernetes还支持Pod和Pod之间的亲和，例如将应用的前端和后端部署在一起，从而减少访问延迟。Pod亲和同样有requiredDuringSchedulingIgnoredDuringExecution和preferredDur

帮助中心 > 云容器引擎 CCE > Kubernetes基础知识 > Pod的编排与调度
如何处理显卡ERR！问题 - 弹性云服务器 ECS

如何处理显卡ERR！问题问题描述执行nvidia-smi命令，仅Pwr:Usage/Cap（能耗）显示ERR！处理方法如果当前用户业务正常，仅nvidia-smi执行后存在ERR!显示问题，无需处理。如果当前业务已经受到影响，迁移虚拟机，再根据故障信息收集收集故障信息后联系技术支持处理。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

License问题问题描述用户业务是做图形处理的，且用户已经安装了GRID驱动，但用户的GPU使用率很低或渲染性能达不到预期。例：运行图像识别任务，任务会突然卡住无法继续运行，GPU的性能表现差；查看/var/log/messages日志发现有如下报错，询问用户后确认用户购

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
产品规格差异 - 应用运维管理 AOM

产品规格差异应用运维管理服务（简称AOM）按计费方式不同分为基础版、按需版两种，其中按需版又分为专业版和企业版。各版本的具体规格差异请参见表1。表1 版本规格差异说明规格项基础版专业版企业版日志读写流量 500MB 400GB 1TB 日志索引流量 500MB 400GB

帮助中心 > 应用运维管理 AOM > 产品介绍（1.0）
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
付费模板 - 企业门户 EWP
付费模板 - 企业门户 EWP

站有效期内，模版一直有效且可无限次安装使用。多终端独立版模板按照功能分为标准型和营销型。如果购买的站点是入门版或标准版，是不能使用营销型模板的，只能使用标准型模板。如果购买的站点是营销版或企业版，既可以使用营销型模板，也可以使用标准型模板。操作步骤登录企业门户控制台，进入“企业门户”界面。

帮助中心 > 企业门户 EWP > 用户指南(多终端独立版) > 模板设置
Agent版本特性 - 云监控服务 CES
Agent版本特性 - 云监控服务 CES

Agent支持的系统有哪些？ CES Agent迭代版本已知版本特性如下： 2.7.5.1版本分类说明发布时间 2024-12-20 新特性基于2.7.5版本： GPU指标采集加固。修复问题无 2.7.5版本分类说明发布时间 2024-12-20 新特性优化网卡指标采集逻辑，完善网卡名称维度值规则规则校验

 帮助中心 > 云监控服务 CES > 用户指南 > 云资源监控 > 主机监控 > 云监控插件（Agent）
下发应用到边缘节点失败 - 智能边缘平台 IEF

确认边缘节点是否已经有应用使用了GPU、NPU资源，节点是否还有剩余资源。确认IEF控制台上显示的边缘节点规格是否正确，CPU和内存信息是否有正常显示，如果内存显示为0，请确认边缘节点是否使用了中文版的操作系统。IEF服务仅支持英文版操作系统，中文版操作系统因无法有效获取内存信息

 帮助中心 > 智能边缘平台 IEF > 常见问题 > 边缘应用
如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

nvidia_drm rmmod nvidia_modeset rmmod nvidia 执行以下命令，查看GPU信息。 nvidia-smi 如果回显正常，则问题已修复。如果回显仍报错，请参考GPU驱动不可用中的处理方法进行操作。父主题：非硬件故障自恢复处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法

总条数： 9216

上一页
1
...
11
12
13
...
461
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

调优前后性能对比 - AI开发平台ModelArts

异构资源配置 - 云容器引擎 CCE

场景介绍及环境准备 - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

使用Msprobe工具分析偏差 - AI开发平台ModelArts

如何处理可恢复的Xid故障问题 - 弹性云服务器 ECS

Profiling数据采集 - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

边缘节点支持多个显卡么？ - 智能边缘平台 IEF

升级Standard专属资源池驱动 - AI开发平台ModelArts

亲和与反亲和调度 - 云容器引擎 CCE

如何处理显卡ERR！问题 - 弹性云服务器 ECS

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

产品规格差异 - 应用运维管理 AOM

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

付费模板 - 企业门户 EWP

Agent版本特性 - 云监控服务 CES

下发应用到边缘节点失败 - 智能边缘平台 IEF

如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线