检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查询SSH密钥列表(废弃) 功能介绍 查询SSH密钥信息列表。 当前API已废弃,请使用查询SSH密钥对列表。 调试 您可以在API Explorer中调试该接口。 URI GET /v2.1/{project_id}/os-keypairs 参数说明请参见表1。 表1 参数说明
问题现象 在云服务器执行以下命令查看系统当前版本: /etc/redhat-release 得到当前云服务器版本为CentOS 7.6。但在控制台使用的镜像为CentOS 7.2(或者低于7.6的其他版本)。 本节操作适用于CentOS、EulerOS操作系统云服务器。 根因分析
示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 非硬件故障自恢复处理方法
问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr. ECC下ecc error > 0,
如何处理用户安装了GRID驱动,但未购买、配置License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messages日志发现有如下报错,
使用FTP上传文件时客户端连接服务端超时怎么办? 问题描述 客户端连接服务端超时,无法连接到服务端。 约束与限制 该文档适用于本地主机Windows系统上的FTP服务。 可能原因 服务端防火墙或安全组拦截。 处理方法 检查服务端防火墙设置。 关闭防火墙或者添加相应规则。 父主题: 文件上传/数据传输
接口约束 接口参数为:router:external=True GET /networks?router:external=True 返回结果中的name字段 URI GET /v2.1/{project_id}/os-floating-ip-pools 参数说明请参见表1。 表1 参数说明
后在合理的时间重启系统,请评估风险后操作。 根因分析 iptables的connection-tracking模块使用系统内存的一部分来跟踪表中的连接。“table full, dropping packet”表明连接跟踪表已满,不能为新连接创建新的条目,因为没有更多的空间。因此出现“dropping
pip安装软件时出现错误:command ´gcc´ failed with exit status 1 问题描述 安装Python库软件时,需配置pip源。以中国科技大学镜像源为例: [root@test home]# cat /root/.pip/pip.conf [global]
件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的目标NVIDIA软件包版本以及CUDA软件版本。
要关闭SELinux。 处理方法 执行以下命令,临时关闭SELinux。 setenforce 0 再次执行关闭Selinux操作,确保虚拟机重启后生效。 执行以下命令,重新安装重置密码插件。 sudo sh setup.sh 如果脚本执行成功打印“cloudResetPwdAgent
-r 根据不同的系统在服务器中执行以下命令,查看安装驱动时的内核版本。 CentOS:find /usr/lib/modules -name nvidia.ko Ubuntu:find /lib/modules -name nvidia.ko 如果当前内核版本与安装驱动时的内核版本不
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。 处理方法 用户停止业务并执行业务迁移。 执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持处理。
可能是因为显卡过热,用户先停止业务,待显卡缓解过热后再执行nvidia-smi命令,查看ERR!是否消失。 如果回显正常,建议用户调整下业务,限制显卡运行的最大功率。 如果仍未恢复正常,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile Uncorr. ECC下ecc error > 0,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。 如果在volatile
NetworkManager服务无法启动,报错:Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错:Failed to restart