检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
相关链接 工作负载异常:GPU节点部署服务报错 父主题: 节点运行
产品介绍 图说DNS 立即使用 成长地图 由浅入深,带您玩转DNS 01 了解 了解云解析服务的功能和应用场景,有助于您更准确地匹配实际业务,更快速地选择解析服务类型,让您的业务高效上云。
图1 报错提示 原因分析 无。 处理方法 定义context时无需指定: context.ascend.provider = "ge" 父主题: 常见问题
对于GPU和NPU性能比对、NPU多次训练之间性能比对的场景,昇腾提供了性能比对工具compare_tools,通过对训练耗时和内存占用的比对分析,定位到具体劣化的算子,帮助用户提升性能调优的效率。
工作负载异常:GPU节点部署服务报错 问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。
错误码说明 未检查到当前节点存在GPU设备 可能原因 GPU卡类型不匹配,当前IEF仅支持nvidia的GPU设备 GPU设备节点未检测到 处理措施 非nvidia的GPU卡。 安装IEF软件时,不使能GPU设备,或更换nvidia的GPU卡。 未检测到GPU设备。
测试结果如下所示: 图1 测试结果 父主题: 性能调优
MindStudio-Insight提供时间线视图、内存、算子耗时、通信瓶颈分析等功能,借助于数据库支持超大性能数据处理,可以支持20GB的集群性能文件分析,并且能够支持大模型场景下的性能调优,相比于Chrometrace、tensorboard等工具提供了更优的功能和性能。
故障信息收集 故障信息收集方法 如何获取显卡ID 如何查询显卡详细信息 如何查询显卡在位信息 如何查询NVIDIA的错误信息 如何查询XID报错信息 如何收集NVIDIA日志 如何查询内核信息 如何收集驱动安装信息 父主题: GPU实例故障自诊断
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。
父主题: GPU相关问题
基于ModelArts Standard运行GPU训练作业 在ModelArts Standard上运行GPU训练作业的场景介绍 在ModelArts Standard运行GPU训练作业的准备工作 在ModelArts Standard上运行GPU单机单卡训练作业 在ModelArts
v1.23 v1.25 适配OS Ubuntu22.04 GPU驱动目录自动挂载优化 1.2.24 v1.19 v1.21 v1.23 v1.25 节点池支持配置GPU驱动版本 支持GPU指标采集 1.2.20 v1.19 v1.21 v1.23 v1.25 设置插件别名为gpu
msprobe工具使用指导 msprobe API预检 msprobe精度比对 msprobe梯度监控 父主题: GPU业务迁移至昇腾训练推理
msprof AOE 自动调优工具,提供子图调优和算子调优功能,在静态shape场景下有较好的调优效果。推荐在mindspore-lite离线推理场景下使用。 包含在cann toolkit中。
dmesg | grep -i xid 若检查项GPU节点上的XID异常为空,说明无XID消息。 若检查项GPU节点上的XID异常不为空,您可按照GPU实例故障分类列表自助诊断并解决问题,或联系技术支持人员获取帮助。 父主题: 故障信息收集
资源准备 在集群中添加GPU节点 登录CCE控制台,单击已创建的集群,进入集群控制台。 安装GPU插件。 在左侧导航栏中选择“插件管理”,在右侧找到gpu-beta(或gpu-device-plugin),单击“安装”。 在安装插件页面,设置插件关键参数。
Ubuntu内核与GPU驱动兼容性提醒 检查项内容 检查到集群中同时使用GPU插件和Ubuntu节点,提醒客户存在可能的兼容性问题。当Ubuntu内核版本在5.15.0-113-generic上时,GPU插件必须使用535.161.08及以上的驱动版本。