AI开发平台MODELARTS-GPU裸金属服务器使用EulerOS内核误升级解决方案:处理方法

时间:2024-09-05 08:36:23

处理方法

下文中假设当前服务器的内核版本是为4.18.0-147.5.1.6.h934.eulerosv2r9.x86_64,介绍如何避免操作系统内核自动升级。

  1. 操作系统内核升级生效,必然需要服务器重启, 因此重启reboot前需要查看当前默认选择的内核版本:
    [root@Server-ddff ~]# grub2-editenv list 
    saved_entry=EulerOS (4.18.0-147.5.1.6.h998.eulerosv2r9.x86_64) 2.0 (SP9x86_64)
    boot_success=0
    [root@Server-ddff ~]# 

    如上发现reboot后内核为4.18.0-147.5.1.6.h998.eulerosv2r9.x86_64,和当前内核版本h934不一致,则需要重新设置内核版本与当前版本一致。

  2. 查看当前内核版本,并且锁定reboot后默认启动的内核版本,执行如下命令:
    grub2-set-default 'EulerOS (4.18.0-147.5.1.6.h934.eulerosv2r9.x86_64) 2.0 (SP9x86_64)'
  3. 执行后查看默认启动的内核版本是否和上述设置的相同:
    [root@Server-ddff ~]# grub2-editenv list 
    saved_entry=EulerOS (4.18.0-147.5.1.6.h934.eulerosv2r9.x86_64) 2.0 (SP9x86_64)
    boot_success=0
    [root@Server-ddff ~]# 

    发现和当前内核一致,因此即使reboot也不会更改服务器的内核版本。

若希望升级指定的操作系统内核,也可以执行grub2-set-default进行设置默认启动内核版本。但操作系统内核升级可能带来的问题。例如在操作系统内核4.18.0-147.5.1.6.h934.eulerosv2r9.x86_64 下安装的nvidia-driver-515,由于执行了yum update并reboot服务器, 发现再次执行nvidia命令时报错:

[root@Server-ddff ~]# nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
[root@Server-ddff ~]#

此时只能安裝nvidia-driver-515以及配套的cuda版本,安装方法可以参考GP Vnt1裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA 11.7

support.huaweicloud.com/usermanual-modelarts-lite/usermanual-modelarts-lite-0051.html