检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
安全专区 安全专区 数据库专区 数据库专区 返回顶部 收起导航 GPU特惠专区 GPU特惠专区 精选云产品,助您一站式上云 精选云产品,助您一站式上云 活动规则 选择产品 图形加速增强型G6云服务器 推理加速型Pi2云服务器 高性价比特惠专区 高性价比特惠专区 精选云产品,助您一站式上云
此外,CUDA client 在第一个 API 调用到来之前,首先到 GPU mgmt 索取 GPU 资源。后续,每一个独立的 API 调用过程都必须到 CUDA mgmt 申请资源,以实现对 GPU 资源和任务的实时调度。
GPU内存使用量(MB)以瓦特为单位的GPU功耗GPU温度,以摄氏度为单位GPU风扇速度百分比 C表示计算,G表示图形(显示) watch -n 5 nvidia-smi 每5秒刷新一次 2.HTOP — CPU, RAM(类似平时top指令) sudo apt install
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。
示例:从 0 到 1 制作自定义镜像并用于训练(Pytorch+CPU/GPU) 本章节介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch,训练使用的资源是CPU或GPU。 本实践教程仅适用于新版训练作业。
图1 报错提示 原因分析 无。 处理方法 定义context时无需指定: context.ascend.provider = "ge" 父主题: 常见问题
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。
对于GPU和NPU性能比对、NPU多次训练之间性能比对的场景,昇腾提供了性能比对工具compare_tools,通过对训练耗时和内存占用的比对分析,定位到具体劣化的算子,帮助用户提升性能调优的效率。
相关链接 工作负载异常:GPU节点部署服务报错 父主题: 节点运行
产品介绍 图说DNS 立即使用 成长地图 由浅入深,带您玩转DNS 01 了解 了解云解析服务的功能和应用场景,有助于您更准确地匹配实际业务,更快速地选择解析服务类型,让您的业务高效上云。
lspci -d 10de: 图1 安装结果 GPU指标采集需要依赖以下驱动文件,请检查环境中对应的驱动文件是否存在。如果驱动未安装,可参见(推荐)GPU加速型实例自动安装GPU驱动(Linux)。
工作负载异常:GPU节点部署服务报错 问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。
故障信息收集 故障信息收集方法 如何获取显卡ID 如何查询显卡详细信息 如何查询显卡在位信息 如何查询NVIDIA的错误信息 如何查询XID报错信息 如何收集NVIDIA日志 如何查询内核信息 如何收集驱动安装信息 父主题: GPU实例故障自诊断
父主题: GPU相关问题
测试结果如下所示: 图1 测试结果 父主题: 性能调优
MindStudio-Insight提供时间线视图、内存、算子耗时、通信瓶颈分析等功能,借助于数据库支持超大性能数据处理,可以支持20GB的集群性能文件分析,并且能够支持大模型场景下的性能调优,相比于Chrometrace、tensorboard等工具提供了更优的功能和性能。
基于ModelArts Standard运行GPU训练作业 在ModelArts Standard上运行GPU训练作业的场景介绍 在ModelArts Standard运行GPU训练作业的准备工作 在ModelArts Standard上运行GPU单机单卡训练作业 在ModelArts
msprof AOE 自动调优工具,提供子图调优和算子调优功能,在静态shape场景下有较好的调优效果。推荐在mindspore-lite离线推理场景下使用。 包含在cann toolkit中。
dmesg | grep -i xid 若检查项GPU节点上的XID异常为空,说明无XID消息。 若检查项GPU节点上的XID异常不为空,您可按照GPU实例故障分类列表自助诊断并解决问题,或联系技术支持人员获取帮助。 父主题: 故障信息收集
msprobe工具使用指导 msprobe API预检 msprobe精度比对 msprobe梯度监控 父主题: GPU业务迁移至昇腾训练推理