检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
异构类实例安装支持对应监控的CES Agent(Windows) 操作场景 监控与告警是保证异构云服务器(GPU加速型实例、AI加速型实例)高可靠性、高可用性和高性能的重要功能。 通过在异构类(GPU加速型)的Windows实例上安装支持对应监控的CES Agent,可以为用户提
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。
"key_name":"Autotest_Init_TC_OriginalAPI_Create_Keypairs_02_keypair", "os-extended-volumes:volumes_attached":[
根因分析 文件系统只读的原因可能有: 文件系统错误导致文件系统进入只读模式。 文件系统是以只读方式进行的挂载。 硬件故障,包括磁盘有坏道或者Raid卡故障等硬件问题。 操作须知 修复文件系统,可能会产生数据丢失,请先备份数据后进行操作。 如以下场景均不符合,请检查存储或者磁盘硬件是否存在故障。
如何处理可恢复的Xid故障问题 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing,
如何处理Nouveau驱动未禁用导致的问题 问题描述 Nouveau驱动未禁用可能导致Linux系统卡死、虚拟机无法远程登录等问题。一般常见于客户使用自己的私有镜像(从ECS普通虚拟机导出的镜像或其他来源的私有镜像)。 判断方式 执行以下命令,查看Linux内核环缓冲区中的错误关键字信息。
unit。 systemctl list-units --type=mount |grep failed test1.mount loaded failed failed /test1 执行以下命令,查询该unit的状态。 systemctl status
Linux私有镜像网卡漂移问题处理 适用场景 使用CentOS 6操作系统的私有镜像创建的云服务器启动后第一个网卡不是eth0而是eth1。 本节的处理方法中有重启云服务器的操作,重启云服务器会造成业务中断,请谨慎操作。 根因分析 /etc/udev/rules.d/70-persistent-net
GPU实例故障处理流程 GPU实例故障处理流程如图1所示,对应的操作方法如下: CES监控事件通知:配置GPU的CES监控后会产生故障事件通知。 故障信息收集:可使用GPU故障信息收集脚本一键收集,也可参考故障信息收集执行命令行收集。 GPU实例故障分类列表:根据错误信息在故障分类列表中识别故障类型。
如何处理ECC ERROR:存在待隔离页问题 问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr
操作步骤 执行以下命令,安装图形桌面组件。 yum groupinstall "Server with GUI" 如果安装结束后提示 Failed : python -urllibs3.noarch 0:1.10.2-7.e17 可以执行以下命令: mv /usr/lib/python2
弹性云服务器关机后还会计费吗? 弹性云服务器支持多种计费模式,不同计费模式的弹性云服务器的关机策略不同。 包年/包月:按订单周期计费,属于预付费资源,关机对计费无影响。 竞价计费(竞享模式):按实际使用时长和选择的保障周期对应价格计费,虽然属于后付费资源,但关机后仍然正常计费。
sort_key 否 String 查询结果按弹性云服务器属性排序,默认排序顺序为created_at逆序。 取值范围:created_at,availability_zone,display_name,host,instance_type_id,key_name,project_id,user_id
如何获取弹性云服务器的物理机房位置? 在网站备案后,如果还需进一步办理“经营性ICP许可证”或者“等保证明”,可能需要提供弹性云服务器的物理机房位置。 您可以在华为云管理控制台通过提交工单的方式获取弹性云服务器的物理机房位置。 提交工单时,有可能需要您提供云服务器的可用区信息,查
calhost.localdomain替换为“new_hostname”。 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 127.0.0.1
如何处理用户安装了GRID驱动,但未购买、配置License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messa
系统打开“系统属性”窗口。 选择“高级”页签,并单击“性能”栏的“设置”。 系统打开“性能选项”窗口。 图1 性能选项 选择“高级”页签,并单击“处理器计划”栏的“后台服务”。 单击“虚拟内存”栏的“更改”。 系统打开“虚拟内存”窗口。 根据业务需求配置虚拟内存: 自动管理所有驱动器的分页文件大小:取消勾选。
显卡故障诊断及处理方法 如何处理infoROM错误 如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 如何处理GPU掉卡,执行lspci
非硬件故障自恢复处理方法 如何处理Nouveau驱动未禁用导致的问题 如何处理ECC ERROR:存在待隔离页问题 如何处理升级内核后,驱动不可用问题 如何处理GPU掉卡问题 如何处理显卡ERR!问题 如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 如何处理驱动兼容性问题
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep