检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何处理GPU掉卡问题 问题描述 执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。 如上图所示,执行nvidia-smi命令查询到7张显卡,实际该机型应有8张显卡。 判断方式 执行以下命令,显卡的数量与实际规格对应的显卡数量一致,且显卡在位状态正常(rev a1),请继
配置多用户登录后,普通用户登录闪屏怎么办? 问题描述 Windows服务器配置多用户登录后,Administrator登录正常,普通用户登录后出现闪屏,或者打开"我的电脑"出现自动关闭,不能正常使用。 处理方法 使Administrator用户登录服务器,查看系统日志及应用日志,查找异常模板,本例发现Mglayout64
string API版本的状态。 CURRENT,这是使用的API的首选版本 SUPPORTED,这是一个较老的,但仍然支持的API版本。 DEPRECATED,一个被废弃的API版本,该版本将被删除。 version string 如果API的这个版本支持微版本,则支持最大的微版本。 如果不支持微版本,这将是空字符串。
pip安装软件时出现错误:command ´gcc´ failed with exit status 1 问题描述 安装Python库软件时,需配置pip源。以中国科技大学镜像源为例: [root@test home]# cat /root/.pip/pip.conf [global]
Magento”。 单击搜索到的镜像,进入镜像购买界面。 设置要购买弹性云服务器实例的地域、规格、推荐配置和购买方式等信息,并单击“立即购买”。 设置云主机的登录密码,阅读并勾选同意《华为云市场服务协议》和《商品服务协议》。 单击“提交订单”。 当弹性云服务器处于“运行中”后,通过浏览器访问
用户业务是做渲染(推理)的,但用户选择了不带驱动的公共镜像,且未单独安装驱动,导致GPU能力不可用,执行nvidia-smi命令报错“command not found”。 判断方式 确认用户业务使用场景。 用户使用的镜像是否带驱动、是否已经自行安装驱动、驱动是否与使用场景匹配。 如果
x系统可能存在差异。 约束与限制 本节操作涉及修改系统内核参数,在线修改内核参数会出现内核不稳定,建议修改后在合理的时间重启系统,请评估风险后操作。 根因分析 iptables的connection-tracking模块使用系统内存的一部分来跟踪表中的连接。“table full
接口约束 接口参数为:router:external=True GET /networks?router:external=True 返回结果中的name字段 URI GET /v2.1/{project_id}/os-floating-ip-pools 参数说明请参见表1。 表1 参数说明
如果用户使用的是vGPU实例,确认实例安装的驱动与主机的驱动版本是否匹配。 登录实例所在主机。 执行nvidia-smi命令,查看驱动版本,并对照版本配套关系。 版本配套关系:https://docs.nvidia.com/grid/index.html 处理方法 重启GPU弹性云服务器。
-r 根据不同的系统在服务器中执行以下命令,查看安装驱动时的内核版本。 CentOS:find /usr/lib/modules -name nvidia.ko Ubuntu:find /lib/modules -name nvidia.ko 如果当前内核版本与安装驱动时的内核版本不
问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr. ECC下ecc error > 0,
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
如何处理用户安装了GRID驱动,但未购买、配置License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messages日志发现有如下报错,
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
I/O操作是写入还是读取请求 尝试I/O操作的文件中的偏移量 执行I/O操作的文件 操作系统的错误代码和错误说明 823错误消息通常表示底层存储计算机硬件或处于I/O请求路径中的驱动程序存在问题,当文件系统中存在矛盾或数据库文件已损坏时用户可能会遇到此错误。 处理方法 登录弹性云服务器,打开运行对话框,输入“services
件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的目标NVIDIA软件包版本以及CUDA软件版本。
可能是因为显卡过热,用户先停止业务,待显卡缓解过热后再执行nvidia-smi命令,查看ERR!是否消失。 如果回显正常,建议用户调整下业务,限制显卡运行的最大功率。 如果仍未恢复正常,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
NetworkManager服务无法启动,报错:Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错:Failed to restart
问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。 处理方法 用户停止业务并执行业务迁移。 执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持处理。