检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在弹性云服务器所在行的“操作”列下,单击“远程登录”。 登录弹性云服务器。 执行如下命令,查看弹性网卡名称。 ifconfig -a 例如,查询到的弹性网卡名为:eth2。 执行如下命令,进入相应目录。 cd /etc/network 执行如下命令,打开interfaces文件。 vi interfaces
mctl daemon-reload重新加载units。 更改/etc/fstab时,必须执行systemctl daemon-reload。在运行该命令之前,systemd不读取fstab并生成装载单元。 处理方法 执行以下命令,重新加载systemd管理的unit配置。 systemctl
GPU设备显示异常进行处理。 否,请执行下一步。 查看系统日志“/var/log/message”,是否存在驱动相关报错。 如果出现“Failed to copy vbios to system memory”,可能是由于频繁加载/卸载驱动导致,建议开启驱动持久化模式,保持驱动处于加载状态。 图1 系统日志
挂载点为(/)根目录的分区,此处必须填写1。 根分区设置为1,其他分区只能从2开始,系统会按照数字从小到大依次检查下去。 重复执行步骤2~步骤5,替换“/dev/vdc1”的UUID。 再次执行以下命令,查看磁盘挂载参数: cat /etc/fstab 回显信息如下所示: UUID=b9a07b7b
如果使用其他规格的GPU云服务器,执行下一步。 查看系统日志“/var/log/message”,是否存在驱动相关报错。 如果存在报错“Failed to copy vbios to system memory”,可能是由于频繁加载/卸载驱动导致,建议开启驱动持久化模式,保持驱动处于加载状态。 执行以下命令,开启驱动持久化模式。
error = 0,执行以下命令,查看所有的卡是否存在待隔离页。 nvidia-smi -q -d PAGE_RETIREMENT 如果3的回显结果中Pending Page Blacklist为Yes,说明存在待隔离页,需要重新加载驱动去隔离。 处理方法 方法一: 执行以下命令,查看
挂载磁盘”后,执行挂载操作一直失败。 图1 磁盘挂载信息 可能原因 云硬盘欠费后,如果超期不续费,系统会强制卸载该磁盘,该动作可能会在Windows弹性云服务器内产生盘符残留,导致云服务器内部实际可用的磁盘挂载点减少。 处理方法 请尝试重启弹性云服务器后,再次执行磁盘挂载操作。
登录弹性云服务器。 在任意目录下执行以下命令。(如果是CCE场景,进入到/opt/cloud/cce/nvidia/bin目录后执行) sh nvidia-bug-report.sh 或 ./nvidia-bug-report.sh 执行完成后会在当前执行目录下生成nvidia-bug-report
service 单击“Esc”退出编辑模式。 执行以下命令,保存并退出文件。 :wq 执行以下命令,加载配置文件。 systemctl daemon-reload systemctl enable myservice.service 执行reboot命令,重启服务器。 (可选)GPU加速型弹性云服务器结果验证
失败。 可能原因 SCSI磁盘的分配与磁盘的槽位号、弹性云服务器中可用的盘符有关。弹性云服务器内部,每加载一个磁盘都按顺序分配空闲的盘符。弹性云服务器启动时,按照槽位号顺序加载磁盘,所以槽位号和盘符的顺序是一一对应的。 在线卸载弹性云服务器的SCSI磁盘后,磁盘的槽位号顺序有可能
lize.ps1 回显类似如下信息: 如果回显PowerShell无法加载文件,原因是通过网络下载的PowerShell脚本在未签名的情况下,Windows系统策略会禁止执行。 您可以通过以下方法解决:首先执行命令set-ExecutionPolicy RemoteSigned,然后重启PowerShell即可。
Agent。正常使用GPU监控功能还需完成配置委托,详细操作,请参见如何配置委托?。 如需手动移除GPU监控功能,可登录GPU加速型云服务器并执行卸载命令:bash /usr/local/uniagent/script/uninstall.sh GPU加速实例总览 主售:计算加速型P
Firmware,导致GPU无法识别。 处理方法一 该处理方法在重启云服务器后失效。 执行以下命令,移除NVIDIA内核模块。 rmmod nvidia_drm rmmod nvidia_modeset rmmod nvidia 执行以下命令,关闭GSP Firmware开关,并载入NVIDIA内核模块。
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。
125.129.250" 修改完成后保存退出。 执行以下命令使配置生效。 执行以下命令重新加载网络配置。 nmcli c reload 执行以下命令查询具体的网络连接名称。 nmcli c s 如下图,eth0的链接名称是System eth0。 执行以下命令重新激活链接。 nmcli
nvidia.com/deploy/xid-errors/index.html。 处理方法 执行dmesg | grep –i xid命令,查看是否存在xid报错。 通知用户停止业务,执行业务迁移,并根据故障信息收集章节收集故障信息后,联系技术支持处理。 父主题: 显卡故障诊断及处理方法
密码插件时,可参考本文档操作。 前提条件 准备好执行机,执行机需满足的条件请参见约束与限制。 需要提前准备待批量安装插件的云服务器的IP地址、Administrator用户的密码信息。 执行机应该与待更新机器在同一VPC下。 在执行完步骤7之后可以解绑eip。 约束与限制 需要选取一台操作系统为CentOS
如何处理升级内核后,驱动不可用问题 问题描述 客户执行nvidia-smi,报错failded to initialize NVML: Driver/library version mismatch。 客户执行nvidia-smi,报错NVIDIA-SMI has failed because
置密码插件时,可参考本文档操作。 前提条件 准备好执行机,执行机需满足的条件请参见约束与限制。 需要提前准备待批量安装插件的云服务器的IP地址、root用户的密码信息或者私钥文件。 执行机应该与待更新机器在同一VPC下。 在执行完步骤6之后可以解绑eip。 约束与限制 需要选取一台操作系统为CentOS
绑定了多个网卡的Linux系统弹性云服务器,如果在变更规格后执行ifconfig(或ip addr)命令时出现网卡设备名称与网卡MAC地址对应不一致的情况,则表明云服务器变更规格后发生了网卡漂移。 如下图所示,变更规格前后,分别在云服务器中执行ip addr命令。从执行结果可以看到eth1和eth2对应的