华为云用户手册

  • 场景二:如果结果显示挂载方式rw,则确认是否为文件系统错误导致 执行以下命令,检查内核中关于文件系统的信息。 dmesg |egrep "ext[2..4]|xfs" 输出结果中如果有I/O error ... inode 的错误信息则根因为文件系统错误导致进入只读模式。 如图所示,需要修复文件系统,请先备份数据后操作,由于文件系统在使用中无法修复,需要通过单用户模式(在该模式下磁盘未挂载)修复文件系统。 重启进入单用户模式尝试修复文件系统。 查询当前设备及文件系统 blkid 检查文件系统(以vdb1为例)。 ext系列文件系统执行以下命令 fsck -n /dev/vdb1 xfs系列文件系统执行以下命令 xfs_check /dev/vdb1 如果遇到提示当前文件系统为mounted,需要先umount文件系统。 执行以下命令,查看当前挂载信息执行 mount 卸载设备 umount 挂载点 修复文件系统(以vdb1为例)。 ext系列文件系统执行以下命令 fsck /dev/vdb1 xfs系列文件执行以下命令 xfs_repair /dev/vdb1
  • 处理方法 方法1:执行以下命令,停止firewalld服务并取消开机自启。 建议通过安全组和ACL进行访问控制,如业务需要开启firewalld请参考•方法2:执行以下命令,在firewalld服务... systemctl stop firewalld systemctl disable firewalld 方法2:执行以下命令,在firewalld服务中添加新的端口55660。 firewall-cmd --add-port=55660/tcp --permanent --zone=public firewall-cmd --reload
  • 处理方法 备份多余的网卡,然后删除/etc/sysconfig/network-scripts目录下多余的网卡配置文件。 执行以下命令,进入该网卡配置文件目录。 本例中查看云服务器内部包含11个网卡配置文件。 cd /etc/sysconfig/network-scripts 执行以下命令备份网卡文件。 mkdir tmp cp ifcfg-* tmp/ ls tmp/ 图2 查看网卡配置文件 如果只使用一张网卡,则删除ifcfg-eth0外多余的网卡配置文件,如果有ifcfg-ens5配置文件也需要删除。 本例以删除ifcfg-eth1到ifcfg-eth11,和ifcfg-ens5为例,请根据实际网卡配置情况更新命令。 rm -rf ifcfg-eth[1-9] ifcfg-eth10 ifcfg-eth11 ifcfg-ens5 图3 删除多余的配置文件 结束多余的dhclient进程。 查询dhclient进程 ps -ef | grep dhclient 以PID为770 为例,执行以下命令结束该进程。 kill -9 770 请注意正确拼写服务的PID。 kill -9 PID表示强制结束进程。 图4 结束dhclient进程 重启network服务。 systemctl restart network 查看network网络状态恢复正常。 systemctl status network 图5 查看network网络状态
  • 问题原因 常见的可能导致系统启动失败或者无法进入系统的系统配置错误如表1所示。 表1 常见系统配置错误 问题类型 典型问题 配置错误 /etc/fstab文件缺失或者配置错误 SELinux配置错误 /etc/security/limits.conf配置错误 /etc/passwd配置格式错误 /etc/shadow配置格式错误 /etc/ssh/sshd_config配置格式错误 文件或目录缺失 /etc/ssh目录被误删 /etc/security目录被误删 /etc/passwd文件被误删 /etc/shadow文件被误删 /etc/ssh/sshd_config文件被误删 文件权限错误 SSH依赖的私钥权限配置过大 SSH依赖的公钥权限配置过大 内核参数配置错误 vm.nr_hugepages配置过大
  • 处理方法 方法一: 执行以下命令,查看GPU使用情况并停掉所有占用GPU的进程。 nvidia-smi 执行以下命令,重置GPU。 nvidia-smi -r 执行以下命令,查看是否存在待隔离页。 nvidia-smi -q -d PAGE_RETIREMENT 如果Pending Page Blacklist 为No,说明当前已无待隔离页。 方法二: 执行以下命令,重启服务器。 reboot 执行以下命令,查看是否存在待隔离页。 nvidia-smi -q -d PAGE_RETIREMENT 如果Pending Page Blacklist 为No,说明当前已无待隔离页。
  • 场景一:/var/empty/sshd属主非root导致sshd启动失败 sshd启动失败,查看journal日志,提示/var/empty/sshd must be owned by root。 journalctl -xe 查看/var/empty/sshd文件属主信息 ll /var/empty/sshd 如上图所示,由于/var/empty/sshd目录属主非root用户导致sshd服务启动失败。 修改/var/empty/sshd属主,及其权限。 chown -R root.root /var/empty/sshd chmod -R 711 /var/empty/sshd 重启sshd服务,执行: systemctl restart sshd
  • 处理方法 卸载驱动。 方法1:执行nvidia-uninstall命令,卸载驱动。 如果提示命令不存在可以执行 查询云服务器安装的驱动版本:whereis n...卸载驱动。 方法2:查询云服务器安装的驱动版本:whereis nvidia 图2 查询安装的驱动版本 根据查询的驱动版本从NVIDIA官网下载驱动包(此处重新下载驱动包是为了执行卸载动作,且后续重新安装驱动时需要此安装包)。 以驱动版本nvidia-396.44为例,执行sh NVIDIA-Linux-x86_64-396.44.run --uninstall,卸载驱动 重装驱动。 操作指导请参考:安装GPU驱动
  • 处理方法 针对此问题,推荐采用以下方式来排查: 检查安全组规则 入方向:打开远程登录端口。默认使用的22端口。 图2 入方向开放22端口 出方向:出方向规则为白名单(允许),放通出方向网络流量。 图3 放通出方向网络流量 云服务器防火墙添加端口例外 以Ubuntu操作系统为例: 执行以下命令检查防火墙状态: sudo ufw status 回显信息如下: Status: active 添加端口例外,以默认使用的22端口为例。 ufw allow 22 Rule added Rule added (v6) 重新查看防火墙状态 sudo ufw status Status: activeTo Action From-- ------ ----22 ALLOW Anywhere22 (v6) ALLOW Anywhere (v6) 规则添加成功,重新测试远程连接云服务器。
  • 如何获取显卡ID Linux操作系统获取显卡ID的方法如下: 登录弹性云服务器。 在任意路径下执行nvidia-smi命令。(CCE集群场景为/opt/cloud/cce/nvidia/bin目录下) Windows操作系统获取显卡ID的方法如下: 进入到C:\Program Files\NVIDIA Corporation\NVSMI路径。 执行nvidia-smi命令。 父主题: 故障信息收集
  • 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing, 非硬件故障,可能是自身软件错误。 详情可以参考NVIDIA的Xid描述文档:https://docs.nvidia.com/deploy/xid-errors/index.html。
  • 问题排查 根据不同的系统在服务器中执行如下命令,查看安装驱动时的内核版本: CentOS:find /usr/lib/modules -name nvidia.ko Ubuntu:find /lib/modules -name nvidia.ko 示例:以CentOS为例,执行上述命令,回显信息如图2所示可以看出GPU驱动是基于3.10.0-957.5.1.el7.x86_64版本的内核安装的。 图2 安装驱动时的内核版本 执行uname –r,如图3所示,查看当前内核版本是3.10.0-1160.24.1.el7.x86_64。 图3 当前内核版本 说明安装驱动的内核版本跟当前内核版本不一致。
  • 处理方法 确认用户业务使用场景是否是做图形处理,用户使用的实例规格是否满足图形处理要求。 用户是否安装GRID驱动,执行nvidia-smi命令查询回显是否正常。 如果回显正常,且能查询到驱动版本,驱动版本是GRID驱动的版本,则说明已安装GRID驱动。 用户是否购买了License,如果已购买License是否已经配置了License。 如果用户未购买License,请参考GPU加速型实例安装GRID驱动购买License后再根据指导配置License。 如果用户已购买过License,但是未配置License,请参考GPU加速型实例安装GRID驱动配置License服务器与License文件。
  • 故障信息收集方法 用户可使用故障信息收集脚本一键收集所有信息或使用命令进行获取相应信息。 故障信息一键收集脚本使用方法如下: 故障信息一键收集脚本下载地址:https://hgcs-drivers-cn-north-4.obs.cn-north-4.myhuaweicloud.com/release/script/diagnose_gpu.sh 执行bash diagnose_gpu.sh命令,将信息收集到信息文件diagnose_gpu_xxxxx.tar.gz进行自排查或工单联系技术支持。 使用命令获取信息请参考表1。 表1 获取信息方法 信息分类 相关文档 显卡基本信息 如何获取显卡ID 如何查询显卡详细信息 如何查询显卡在位信息 显卡故障信息(Linux) 如何查询NVIDIA的错误信息 如何查询XID报错信息 NVIDIA日志收集(Linux) 如何收集NVIDIA日志 镜像内核信息收集(Linux) 如何查询内核信息 驱动安装信息收集(Linux) 如何收集驱动安装信息 父主题: 故障信息收集
  • 处理方法 登录弹性云服务器。 执行以下命令,编辑/etc/ssh/sshd_config文件。 vi /etc/ssh/sshd_config 修改如下配置项: X11Forwarding参数修改为:yes UseLogin参数去掉前面的注释,并修改取值为no 修改结果如下图所示: 执行以下命令,重启ssh服务。 systemctl restart sshd 执行以下命令,安装xorg-x11-xauth软件包。 yum install xorg-x11-xauth 重启云服务器。 reboot
  • GPU实例故障分类列表 GPU实例故障的分类列表如表1所示。 表1 GPU实例故障分类列表 是否可恢复故障 故障类型 相关文档 可恢复故障,可按照相关文档自行恢复 镜像配置问题 如何处理Nouveau驱动未禁用导致的问题 ECC错误 如何处理ECC ERROR:存在待隔离页问题 内核升级问题 如何处理升级内核后,驱动不可用问题 GPU掉卡问题 如何处理GPU掉卡问题 显卡ERR! 如何处理显卡ERR!问题 软件安装问题 如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 驱动兼容性问题 如何处理驱动兼容性问题 Xid问题 如何处理可恢复的Xid故障问题 显卡被禁用 如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 镜像问题 如何处理用户使用场景与其选择的驱动、镜像不配套问题 License问题 如何处理用户安装了GRID驱动,但未购买、配置License问题 不可恢复故障,需联系技术支持处理 InfoROM错误 如何处理infoROM错误 ECC错误 如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 如何处理ECC ERROR:执行nvidia-smi存在S RAM 的ECC错误(V100显卡) GPU掉卡 如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 温度过高问题 如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 驱动安装报错 如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” Xid报错 如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 父主题: GPU实例故障自诊断
  • 判断方式 确认用户业务使用场景。 用户使用的镜像是否带驱动、是否已经自行安装驱动、驱动是否与使用场景匹配。 如果用户使用的是异构发布的公共镜像,可通过镜像名称区分驱动类型与驱动版本。镜像名称中如带有with tesla字样,则选择该镜像会安装tesla驱动;如带有with grid字样,则选择该镜像会安装GRID驱动(不包括License)。 如果用户使用的是私有镜像或其他镜像,可通过nvidia-smi命令查询是否安装了驱动以及确认驱动类型、驱动版本。 如客户选择自行安装Tesla驱动,请务必告知客户确保Tesla驱动与CUDA软件的版本配套关系,可参考Tesla驱动及CUDA工具包获取方式。
  • 可能原因 一般来说不会出现删除文件后空间不释放的情况,但是也存在例外,比如文件进程锁定,或者有进程一直在向这个文件写数据。 Linux系统中的一个文件在文件系统中存放分为两个部分:数据部分和指针部分,指针位于文件系统的meta-data中,在将数据删除后,这个指针就从meta-data中清除了,而数据部分存储在磁盘中。在将数据对应的指针从meta-data中清除后,文件数据部分占用的空间就可以被覆盖并写入新的内容,之所以出现删除文件后,空间还没有释放,就是因为进程还在一直向这个文件写入内容,导致虽然删除了文件,但是由于进程锁定,文件对应的指针部分并未从meta-data中清除,而由于指针并未删除,系统内核就认为文件并未被删除,因此通过df命令查询空间并未释放。 当一个文件被删除后,在文件系统目录中已经不可见了,所以du就不会再统计它了。然而如果此时还有运行的进程持有这个已经被删除了的文件的句柄,那么这个文件就不会真正在磁盘中被删除,分区超级块中的信息也就不会更改。这样df仍旧会统计这个被删除了的文件。
  • 处理方法 Linux云服务器启动后,在出现内核选项时按字母键e进入内核编辑模式。 找到linux16,在最后LANG=en_US.UTF-8字样后面添加以下内容,注意UTF-8 后面有空格。 init=/bin/sh 执行以下命令启动,进入单用户模式。 Ctrl+X 执行以下命令,把系统文件权限改成可读写(rw)。 mount -o remount,rw / 执行以下命令,进入/etc/selinux目录。 cd /etc/selinux 执行以下命令,编辑config文件。 cat config 修改SELINUX=disabled后保存退出。 重启云服务器。
  • 问题描述 用户业务是做渲染(推理)的,但用户选择了带Tesla驱动(GRID驱动)的公共镜像,运行软件时出错。 例:用户使用场景为做渲染,但选错公共镜像,运行软件时报错“A D3D11-compatible GPU (Feature Level 11.0,Shader Model 5.0) is required to run the engine”。 用户业务是做渲染(推理)的,但用户选择了不带驱动的公共镜像,且未单独安装驱动,导致GPU能力不可用,执行nvidia-smi命令报错“command not found”。
  • 处理方法一:系统范围设置 以root用户登录云服务器。 执行以下命令,查看操作系统中当前打开的所有文件数和最大打开文件数设置(部分版本默认为366954)。 cat /proc/sys/fs/file-nr cat /proc/sys/fs/file-max 回显输出的第一列表示当前系统中所有打开的文件数。 执行以下命令,更改系统范围的最大打开文件数。 vim /etc/sysctl.conf 按i键进入编辑模式。 在文件末尾添加如下内容,具体的数值可以根据实际情况修改。 fs.file-max = 495000 按ESC键退出,并输入:wq保存配置。 执行以下命令,使修改生效。 sysctl -p
  • 处理方法 查看实例是否使用NVIDIA Tesla T4 GPU(例如,Pi2或G6规格)。 是,请参见T4 GPU设备显示异常进行处理。 否,请执行下一步。 查看系统日志“/var/log/message”,是否存在驱动相关报错。 如果出现“Failed to copy vbios to system memory”,可能是由于频繁加载/卸载驱动导致,建议开启驱动持久化模式,保持驱动处于加载状态。 图1 系统日志 执行以下命令,开启驱动持久化模式。 nvidia-smi -pm 1 执行以下命令,打开并编辑“/etc/rc.local”文件。 vim /etc/rc.local 配置开机自启动,将命令“nvidia-smi -pm 1”写入“/etc/rc.local”文件中。 按“Esc”,输入:wq保存并退出。 执行以下命令,添加启动权限。 chmod +x /etc/rc.d/rc.local 否,请执行下一步。 查看实例的Tesla驱动版本是否为510.xx.xx。 是,该驱动版本与镜像可能存在兼容性问题,建议更换驱动版本,操作指导,请参考安装GPU驱动。 否,请执行下一步。 请尝试重启云服务器,再执行nvidia-smi查看GPU使用情况,确认是否正常。 如果问题依然存在,请联系客服。
  • 处理方法 编辑 /etc/ssh/sshd_config 文件,检查如下设置 vi /etc/ssh/sshd_config 修改如下配置项: 把PasswordAuthentication no 改为 PasswordAuthentication yes 或去掉PasswordAuthentication yes 前面的#注释掉。 重启 SSH 服务。 CentOS 6 service sshd restart CentOS 7 systemctl restart sshd
  • 如何查询XID报错信息 XID消息是NVIDIA驱动程序向操作系统的内核日志或事件日志打印的错误报告,用于标识GPU错误事件,提供GPU硬件、NVIDIA软件或您应用程序中的错误类型、错误位置、错误代码等信息。 查询XID报错信息方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在xid相关报错,保存回显结果。 dmesg | grep -i xid 若检查项GPU节点上的XID异常为空,说明无XID消息。 若检查项GPU节点上的XID异常不为空,您可按照GPU实例故障分类列表自助诊断并解决问题,或联系技术支持人员获取帮助。 父主题: 故障信息收集
  • 检查网络链路 本地客户端ping服务器公网IP,确认是否存在丢包或延时的情况。 若存在丢包或时延高的情况,请使用MTR进行诊断,具体操作可参考Ping不通或丢包时如何进行链路测试?。 若不存在丢包或时延高的情况,请执行步骤2。 执行dig/nslookup命令,查看DNS的解析情况,排查是否DNS解析引起的问题。您也可以直接使用公网IP访问对应页面,排查是否 DNS的问题导致访问慢。 详细操作请参考: 解析不生效有哪些原因? 怎样测试解析 域名 是否生效?
  • 检查DNS是否配置正确 打开cmd命令窗口,输入“ipconfig /all”,检查使用的DNS服务器是不是华为云默认DNS。 推荐您使用华为云默认 DNS地址 。 华为云提供的DNS地址请参考华为云DNS地址。 如果使用的是华为云的DNS地址,请执行以下命令检查云服务器与DNS节点之间网络是否连通。 ping DNS IP地址 例如:以华北-北京四为例,执行ping 100.125.1.250 执行以下命令,查看域名解析是否正常。 nslookup 待访问的大陆外网站地址 例如:nslookup www.example.com 重新访问中国大陆外(包括中国港澳台及其他国家、地区)网站,查看卡顿或无法访问的问题是否有所好转。 若问题仍未解决,请参考本节操作继续排查。
  • 处理方法 在本地主机以管理员身份运行cmd。 执行netsh winsock reset 重启本地主机。 重试远程登录。 如果仍无法登录云服务器,首先建议您排查本地的网络是否正常。更换网络(例如:手机热点)测试是否可以远程登录。 如果使用手机热点的网络可以正常远程登录,说明是本地网络异常,建议重启本地网络(例如重启路由器)。 如果通过上述排查,仍然无法登录云服务器,请记录资源信息和问题时间,然后单击管理控制台右上方的“工单”,填写工单信息,获取技术支持。
  • 原因分析 出现该问题的原因可能是防火墙规则与网卡接口不在同一区域zone。您可以按照以下步骤查看: 执行如下命令,查看防火墙规则指定区域及开放端口。 firewall-cmd --list-all 下图示例中防火墙规则指定区域为public,开放端口为80,网卡接口为eth0。 图1 查看防火墙信息 执行如下命令,查看网卡接口所在区域。 firewall-cmd --get-active-zones 下图示例中网卡接口指定区域为external。 图2 查看网卡接口所在区域 执行如下命令,查看external区域下是否开放了80端口,具体示例如图3所示。 firewall-cmd --zone=external --list-ports 图3 external区域未开放端口 external区域下暂未开放80端口。 执行如下命令,查看public区域下是否开放了80端口,具体示例如图4所示。 firewall-cmd --zone=public --list-ports 图4 public区域已开放端口 public区域下开放了80端口。 由此可知,防火墙规则与网卡接口不在同一区域,导致无法访问网站。
  • 解决方法 方案一 在网卡接口指定区域增加防火墙规则,开放80端口,具体操作如下。 执行如下命令,开放80端口。 firewall-cmd --zone=external --add-port=80/tcp --permanent 图5 开放80端口 执行如下命令,更新防火墙规则。 firewall-cmd --reload 图6 更新防火墙规则 执行如下命令,查看防火墙规则。 firewall-cmd --zone=external --list-ports 图7 查看防火墙规则 方案二 修改网卡接口指定区域,使其与防火墙规则处于同一区域,具体操作如下。 执行如下命令,修改网卡接口指定区域。 firewall-cmd --zone=public --change-interface=eht0 图8 修改网卡接口指定区域 执行如下命令,查看网卡接口指定区域。 firewall-cmd --get-active-zones 图9 查看网卡接口指定区域
  • 可能原因 Windows云服务器的动态端口耗尽。 由于Windows操作系统中TCP默认的TIME_WAIT时间为4分钟,因此,当Windows操作系统云服务器在长时间使用后,可能会存在处于TIME_WAIT状态并占用大量端口的连接,从而导致Windows云服务器访问外部网站或应用出现异常。 您可以在Windows云服务器的CMD命令提示符中,执行以下命令查看处于TIME_WAIT状态的连接。 netstat -an |find "TIME_WAIT" /c 执行结果如下: 图1 查看TIME_WAIT状态的连接数量
  • 处理方法 登录Windows云服务器。 以管理员身份运行CMD。 执行以下命令,查看当前的动态端口数量。 netsh int ipv4 show dynamicport tcp 图2 查看当前动态端口 执行以下命令,增大动态端口数量并再次查看当前动态端口数量。 netsh int ipv4 set dynamicport tcp start=1025 num=60000 netsh int ipv4 show dynamicport tcp 图3 设置动态端口 重新访问外部网站或应用。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全