检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何处理可恢复的Xid故障问题 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing,
操作步骤(蓝屏):当云服务器系统蓝屏,无法操作时,采用此方案。 操作步骤(业务异常):当云服务器可以登录,但业务验证异常,需回滚至初始规格时,采用此方案。 操作步骤(蓝屏) 提交工单联系客服,请求开通回滚至初始规格的权限。 回滚至初始规格。 您可以参考规格变更通用操作,将云服务器规格回滚至初始规格。
前提条件 已挂载数据盘至云服务器,且该数据盘未初始化。 已登录云服务器。 弹性云服务器请参见登录弹性云服务器。 裸金属服务器请参见登录裸金属服务器。 操作指导 在云服务器桌面,单击“开始”。 弹出开始窗口。 在“计算机”栏目,右键单击菜单列表中的“管理”。 弹出“服务器管理器”窗口,如图1所示。
同一子网的两块网卡均绑定弹性公网IP 问题描述 云服务器上两块相同子网的网卡,均绑定了弹性公网IP。其中,主网卡绑定的弹性公网IP可以正常访问,但是扩展网卡的弹性公网IP无法访问。 可能原因 CentOS操作系统的弹性云服务器默认开启了反向过滤技术(rpfilter),云服务器的默认路由是指向eth0的
查询浮动IP资源池列表(废弃) 功能介绍 查询浮动IP资源池列表。 当前API已废弃,请使用"查询网络"。 接口约束 接口参数为:router:external=True GET /networks?router:external=True 返回结果中的name字段 URI GET
问题现象 在云服务器执行以下命令查看系统当前版本: /etc/redhat-release 得到当前云服务器版本为CentOS 7.6。但在控制台使用的镜像为CentOS 7.2(或者低于7.6的其他版本)。 本节操作适用于CentOS、EulerOS操作系统云服务器。 根因分析
communicate with the NVIDIA diver。 判断方式 执行以下命令,查看当前内核版本。 uname -r 根据不同的系统在服务器中执行以下命令,查看安装驱动时的内核版本。 CentOS:find /usr/lib/modules -name nvidia.ko Ubuntu:find
该漏洞不会引起不同弹性云服务器之间的攻击,但可能会引起如下问题: 弹性云服务器内多个应用之间,可能存在攻击。 对于同一弹性云服务器,多个账号之间可能存在攻击。 使用公共镜像的弹性云服务器,云平台会对公共镜像依次修复,不会对您的业务带来影响。 使用私有镜像的弹性云服务器,请根据漏洞影响
息。 vi /etc/fstab tail -n 3 /etc/fstab [root@sluo-ecs-a611 ~]# vi /etc/fstab [root@sluo-ecs-a611 ~]# tail -n 3 /etc/fstab # UUID=7c4fce5d-f
/dev/xvda1: swap,/dev/xvda2: root)的扩容场景。 执行以下命令,查询当前弹性云服务器的分区情况。 parted -l /dev/xvda [root@sluo-ecs-5e7d ~]# parted -l /dev/xvda Disk /dev/xvda: 53
Linux操作系统执行passwd命令重置密码失败提示:Authentication token manipulation error 问题现象 root用户用passwd命令修改管理员用户以及普通用户的密码时失败,提示passwd:Authentication token manipulation
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
配置License。 如果用户已购买过License,但是未配置License,请参考GPU加速型实例安装GRID驱动配置License服务器与License文件。 父主题: 非硬件故障自恢复处理方法
EIP资源绑定的服务器如果对外有攻击等安全违规行为,即被冻结状态,在控制台上显示为冻结(违规冻结)。被冻结的资源不可用,也不能修改、删除。若要解除冻结状态,请提交工单。 您可以参考更换弹性公网IP为实例更换EIP。 EIP绑定的实例涉嫌违规被冻结 EIP资源绑定的服务器涉嫌违规行为,
一个应用软件是否可以将应用软件中不同的部件分散部署到不同的区域? 可以,但是不建议这种部署方式。 建议将一个应用软件内的不同部件部署到同一个区域,这样不同部件之间的通信可以采用内网网络通信,既可以节省因采用公网网络通信带来的带宽费用,又可以保证不同部件之间的网络通信质量。 父主题:
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
如何处理用户使用场景与其选择的驱动、镜像不配套问题 问题描述 用户业务是做渲染(推理)的,但用户选择了带Tesla驱动(GRID驱动)的公共镜像,运行软件时出错。 例:用户使用场景为做渲染,但选错公共镜像,运行软件时报错“A D3D11-compatible GPU (Feature
NetworkManager服务无法启动,报错:Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错:Failed to restart
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。