检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
阶段 相关文档 1 智能购买组公测上线 智能购买组是一种新的算力获取方式,通过自定义配置,可以自动化获得不同可用区、不同实例类型以及不同计费模式的算力。 智能购买组公测申请 公测 智能购买组 2 C7型弹性云服务器公测上线 C7型云服务器基于擎天架构,搭载第三代英特尔® 至强®
Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 非硬件故障自恢复处理方法
com/deploy/xid-errors/index.html。 处理方法 尝试重新运行作业并观察Xid错误是否消失。 若错误持续存在,尝试检查代码或分析日志,确认是否为程序引入的Xid故障。 若确认不是程序引入,请联系技术支持处理。 父主题: 非硬件故障自恢复处理方法
PAGE_RETIREMENT 如果3的回显结果中Pending Page Blacklist为Yes,说明存在待隔离页,需要重新加载驱动去隔离。 处理方法 方法一: 执行以下命令,查看GPU使用情况并停掉所有占用GPU的进程。 nvidia-smi 执行以下命令,重置GPU。 nvidia-smi
kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep gcc #查看gcc版本 rpm -qa | grep
云服务器内存不足。 处理方法 方法一(推荐): 变更规格,升级云服务器的CPU、内存大小。变更规格的方法,请参见变更规格(CPU和内存)。 方法二: 开启虚拟内存,获取云服务器的空闲内存。 开启虚拟内存的方法,请参见怎样配置Windows弹性云服务器的虚拟内存?。 该方法会导致磁盘I/O性能下降,如非必要,不推荐使用。
判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的目标NVIDIA软件包版本以及CUDA软件版本。 处理方法 推荐客户使用自动安装驱动脚本。根据当前华为云驱动自动安装脚本中提供的CUDA版本,按需安装。 GPU加速型实例自动安装GPU驱动(Linux)
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障信息收集
执行nvidia-smi命令,查看驱动版本,并对照版本配套关系。 版本配套关系:https://docs.nvidia.com/grid/index.html 处理方法 重启GPU弹性云服务器。 若显示适配器恢复正常,则恢复完成。 若仍异常,则执行下一步。 请尝试重装GPU驱动或升级驱动版本。请参考安装GPU驱动。
可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。 处理方法 用户停止业务并执行业务迁移。 执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
器查看GPU使用率。 本节操作介绍了两种查看GPU使用率的方法,方法一是在cmd窗口执行命令查看GPU使用率,方法二是通过安装gpu-Z工具查看GPU使用率。 前提条件 GPU加速型云服务器已安装NVIDIA驱动。 方法一 登录GPU加速型云服务器。 打开cmd命令窗口。 执行如下命令,查看GPU使用情况。
怎样配置Linux分析工具:atop和kdump 操作场景 本节操作介绍atop和kdump的配置方法。 不同的Linux版本使用的atop工具版本不同,因此配置方法稍微有所不同。 配置atop: atop简介 atop安装前准备 CentOS 7/8、AlmaLinux、 Rocky
可以通过手动调整系统盘分区,扩容系统盘的空白空间。 扩容的方法有如下两种: 将空白分区划分成新分区,并将新分区格式化后挂载到root根分区的某个目录下。具体方法请参见本节内容。 将扩容的空白分区直接扩容到根分区。具体方法请参见FAQ: 如何将扩容系统盘的空白分区在线扩容到末尾的root分区?
新连接到远程计算机。 图1 协议错误 可能原因 注册表中的“Certificate”子键被损坏,导致用户无法与终端服务进行正常通信。 解决方法 在运行窗口输入“regedit”回车,打开注册表编辑器。 图2 打开注册表 找到HKEY_LOCAL_MACHINE\SYSTEM\Co
524288 1048576 ...... 修改内核参数 方法一:通过“/proc/sys”目录,使用echo命令修改内核参数对应的文件。 该方法修改的参数值仅在当次运行中生效,重启后会重置为原参数值,一般用于临时性验证。如需永久生效,请参考方法二。 “/proc/sys/”目录是Linux
禁用SSH密码登录方式。 本节操作介绍禁用SSH密码方式连接云服务器的操作步骤。 该设置方法仅对SSH连接方式有效,控制台仍然可以使用密码登录方式,请务必保存好云服务器登录密码。 该设置方法不适用于Ubuntu 22.04操作系统的云服务器。 操作步骤 登录Linux云服务器,执行以下命令编辑云服务器SSH连接方式。
堆栈日志信息 可能原因 云服务器在运行过程中遇到NVIDIA官方驱动bug,导致云服务器内核崩溃。 处理方法 方法一:重启云服务器。 重启后,云服务器可以正常使用,该问题再次发生概率通常较低。 方法二:更新驱动版本。 如果云服务器重启后,该问题依然出现,则需要通过NVIDIA官方下载对应CUDA驱动版本的最新版本。
续收费。如需停止计费,需删除弹性云服务器。 本地盘的%util参数表示“向设备发出I/O请求期间的CPU时间百分比”,对于并行设备(如Nvme SSD本地盘)来说,不能反映其繁忙程度。 I系列云服务器本地盘损坏的处理方法 本地盘损坏时,带有本地盘的云服务器处理方法如下: Linux系统
如何查询NVIDIA的错误信息 查询NVDIA错误信息的方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在error信息,保存回显结果。 dmesg | grep -i nvidia 也可过滤关键字后保存结果,例如:NVRM、nouveau、nvidia、nv字样等。 父主题:
ty_group_rule_id} 参数说明请参见表1。 表1 参数说明 参数 是否必选 描述 project_id 是 项目ID。 获取方法请参见获取项目ID。 security_group_rule_id 是 安全组规则ID,在URI中指定。 请求消息 无 响应消息 无 请求示例