检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
网络 虚拟私有云 虚拟私有云(Virtual Private Cloud,以下简称VPC)为弹性云服务器构建了一个逻辑上完全隔离的专有区域,您可以在自己的逻辑隔离区域中定义虚拟网络,为弹性云服务器构建一个逻辑上完全隔离的专有区域。您还可以在VPC中定义安全组、VPN、IP地址段、
如何获取显卡ID Linux操作系统获取显卡ID的方法如下: 登录弹性云服务器。 在任意路径下执行nvidia-smi命令。(CCE集群场景为/opt/cloud/cce/nvidia/bin目录下) Windows操作系统获取显卡ID的方法如下: 进入到C:\Program Files\NVIDIA
com/deploy/xid-errors/index.html。 处理方法 执行dmesg | grep –i xid命令,查看是否存在xid报错。 通知用户停止业务,执行业务迁移,并根据故障信息收集章节收集故障信息后,联系技术支持处理。 父主题: 显卡故障诊断及处理方法
如何处理用户使用场景与其选择的驱动、镜像不配套问题 问题描述 用户业务是做渲染(推理)的,但用户选择了带Tesla驱动(GRID驱动)的公共镜像,运行软件时出错。 例:用户使用场景为做渲染,但选错公共镜像,运行软件时报错“A D3D11-compatible GPU (Feature
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 问题描述 用户在Windows设备管理器显示适配器中查询显卡属性,发现设备状态中存在错误“由于该设备有问题,Windows已将其停止”。 判断方式 确认用户发生问题时的操作,是否有出现显存OOM。 如果
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
问题处理:如果对业务稳定性有较高要求,建议您通过变更规格操作将共享型实例变更为独享型实例。 当Linux实例带宽流量过高或CPU使用率高时,您可以按如下步骤进行排查: 问题定位:定位影响云服务器带宽和CPU使用率高的进程。 问题处理:排查进程是否正常,并分类进行处理。 正常进程:优化程序,或变更云服务器的配置。
如何处理支付订单后云服务器开通失败? 用户支付订单后,如果收到云服务器开通失败的短信,请致电华为云客服中心电话4000-955-988,客服会协助用户排除故障,开通云服务器。如果故障无法及时排除,用户可以选择取消订单,客服会做退费处理,将订单费用退还至用户的账户。 父主题: ECS创建
使用。 处理方法 用户停止业务并执行业务迁移。 执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
针对管理控制台的异常提示信息,应该如何处理? 问题描述 您可以通过本节内容解决如下问题: 用户在管理控制台执行弹性云服务器相关操作后出现异常,针对管理控制台提示的异常信息,应该如何处理? 用户参见《弹性云服务器接口参考》调用云服务器相关的API接口时,如果返回错误码,应该如何处理? 背景知识 用户
Linux弹性云服务器远程登录(VNC方式) 之后,您就可以根据本地环境以及弹性云服务器是否绑定弹性公网IP,选择合适的登录方式,详细内容请参见如何登录弹性云服务器?。 如果您在登录过程中遇到问题,推荐您使用ECS远程登录诊断工具进行问题的自助排查和定位。 系统更新 更新镜像源(Linux)
conf文件,重启后不生效,则可能是由于limits.conf中的修改被/etc/security/limits.d/目录中配置项的值所覆盖。 解决方案 修改/etc/security/limits.d/目录中配置项或修改/etc/security/limits.conf文件。 如果修改
务器上运行的某个进程,指定在某个CPU上工作,实现CPU性能调优。 为了获取更高的执行效率,应该保证一个CPU把一个完整的发送或者接收过程处理完,避免CPU切换。最好一个业务进程/线程固定在一个CPU、固定一个网卡发送队列,中断也使用这个CPU。对于跨NUMA的云服务器,应该尽量
其他子网不能与指定IP的子网相同。 暂不分配IPv6地址/自动分配IPV6地址:当且仅当选择部分规格的云服务器、且VPC子网开启了IPv6功能时,该参数可见。子网如何开启IPv6功能,请参见“IPv4/IPv6双栈网络”。云服务器是否支持IPv6双栈功能的查看方法请参见动态获取IPv6地址中的“约束与限制”相关内容。
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile
and virtio driver again! ... Error:ECS modify error! 图1 驱动安装成功但是检查失败 解决方案 请先参考XEN实例变更为KVM实例(Linux-手动配置)中“检查云服务器配置是否成功”的操作步骤检查驱动是否安装成功。 如果驱动安装
如何收集NVIDIA日志 收集NVIDIA日志方法如下: 登录弹性云服务器。 在任意目录下执行以下命令。(如果是CCE场景,进入到/opt/cloud/cce/nvidia/bin目录后执行) sh nvidia-bug-report.sh 或 ./nvidia-bug-report
ndows或Linux的操作系统。 表1 操作系统对比 操作系统 开发者语言 数据库 Windows ASP.NET、MFC、C# ACCESS、SQL Server Linux Shell MySQL、SQLite 开发者语言为HTML、C、JAVA、PHP,两种系统都可以选。
本地盘换盘预处理(裸金属类型实例) 操作场景 当进行“本地盘换盘”事件的“授权换盘”操作时,需要先对本地盘进行换盘预处理。 本文介绍如何对裸金属类型的ECS实例进行本地盘的换盘预处理操作。 本地盘换盘操作会丢失故障本地盘上的数据,如果无需保留本地盘上的数据,可通过本操作换盘预处理。 本