检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
换盘预处理 本地盘换盘预处理(磁盘增强型实例) 本地盘换盘预处理(超高I/O型实例) 本地盘换盘预处理(裸金属类型实例) 父主题: 事件管理
如何处理GPU掉卡问题 问题描述 执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。 如上图所示,执行nvidia-smi命令查询到7张显卡,实际该机型应有8张显卡。 判断方式 执行以下命令,显卡的数量与实际规格对应的显卡数量一致,且显卡在位状态正常(rev
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。
磁盘增强型实例特点 规格名称 计算 磁盘类型 网络 磁盘增强型D7 CPU/内存配比:1:4 vCPU数量范围:4-64 处理器:第三代英特尔® 至强® 可扩展处理器 基频/睿频:2.6GHz/3.4GHz 支持开启/关闭超线程功能,详细内容请参见开启/关闭超线程 高IO 通用型SSD
Linux弹性云服务器发生kdump时,操作系统无响应 Linux弹性云服务器怎样升级内核? 弹性云服务器的操作系统无法正常启动是什么原因? 针对Intel处理器芯片存在的Meltdown和Spectre安全漏洞,应该如何规避? 如何开启CentOS操作系统的SELinux功能? 鲲鹏CentOS 7和中标麒麟NKASV
如何处理Nouveau驱动未禁用导致的问题 问题描述 Nouveau驱动未禁用可能导致Linux系统卡死、虚拟机无法远程登录等问题。一般常见于客户使用自己的私有镜像(从ECS普通虚拟机导出的镜像或其他来源的私有镜像)。 判断方式 执行以下命令,查看Linux内核环缓冲区中的错误关键字信息。
unit。 systemctl list-units --type=mount |grep failed test1.mount loaded failed failed /test1 执行以下命令,查询该unit的状态。 systemctl status
如何处理可恢复的Xid故障问题 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing,
sort_key 否 String 查询结果按弹性云服务器属性排序,默认排序顺序为created_at逆序。 取值范围:created_at,availability_zone,display_name,host,instance_type_id,key_name,project_id,user_id
Linux私有镜像网卡漂移问题处理 适用场景 使用CentOS 6操作系统的私有镜像创建的云服务器启动后第一个网卡不是eth0而是eth1。 本节的处理方法中有重启云服务器的操作,重启云服务器会造成业务中断,请谨慎操作。 根因分析 /etc/udev/rules.d/70-persistent-net
GPU实例故障处理流程 GPU实例故障处理流程如图1所示,对应的操作方法如下: CES监控事件通知:配置GPU的CES监控后会产生故障事件通知。 故障信息收集:可使用GPU故障信息收集脚本一键收集,也可参考故障信息收集执行命令行收集。 GPU实例故障分类列表:根据错误信息在故障分类列表中识别故障类型。
操作步骤 执行以下命令,安装图形桌面组件。 yum groupinstall "Server with GUI" 如果安装结束后提示 Failed : python -urllibs3.noarch 0:1.10.2-7.e17 可以执行以下命令: mv /usr/lib/python2
弹性云服务器关机后还会计费吗? 弹性云服务器支持多种计费模式,不同计费模式的弹性云服务器的关机策略不同。 包年/包月:按订单周期计费,属于预付费资源,关机对计费无影响。 竞价计费(竞享模式):按实际使用时长和选择的保障周期对应价格计费,虽然属于后付费资源,但关机后仍然正常计费。
如何处理ECC ERROR:存在待隔离页问题 问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr
calhost.localdomain替换为“new_hostname”。 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 127.0.0.1
如何处理用户安装了GRID驱动,但未购买、配置License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messa
显卡故障诊断及处理方法 如何处理infoROM错误 如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 如何处理GPU掉卡,执行lspci
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
多网卡配置文件导致network启动失败处理 问题现象 重启或启动network后出现报错:Device eth1 does not seem to be present,或no suitable device found for this connection 图1 network启动失败
系统打开“系统属性”窗口。 选择“高级”页签,并单击“性能”栏的“设置”。 系统打开“性能选项”窗口。 图1 性能选项 选择“高级”页签,并单击“处理器计划”栏的“后台服务”。 单击“虚拟内存”栏的“更改”。 系统打开“虚拟内存”窗口。 根据业务需求配置虚拟内存: 自动管理所有驱动器的分页文件大小:取消勾选。