检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何处理用户安装了GRID驱动,但未购买、配置License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messages日志发现有如下报错,
后在合理的时间重启系统,请评估风险后操作。 根因分析 iptables的connection-tracking模块使用系统内存的一部分来跟踪表中的连接。“table full, dropping packet”表明连接跟踪表已满,不能为新连接创建新的条目,因为没有更多的空间。因此出现“dropping
查询SSH密钥列表(废弃) 功能介绍 查询SSH密钥信息列表。 当前API已废弃,请使用查询SSH密钥对列表。 调试 您可以在API Explorer中调试该接口。 URI GET /v2.1/{project_id}/os-keypairs 参数说明请参见表1。 表1 参数说明
memory 可能原因 出现该错误信息表示系统的进程ID(PID),即系统中运行的进程/线程数达到了最大限制,该限制由内核参数/proc/sys/kernel/pid_max控制。 解决方案 远程登录ECS实例。 执行以下命令,查看系统当前已运行的进程数。 ps -eLf | wc -l
在运行多个docker容器的环境下NetworkManager服务占用内存很大,导致内存使用率过高。 本节操作适用于CentOS 7、Ubuntu 16.04操作系统。 该文档涉及重启网络服务,可能会造成业务中断,请谨慎操作。 问题分析 NetworkManager消耗的内存量随着容器启动
删除安全组规则(废弃) 功能介绍 删除安全组规则。 当前API已废弃,请使用“删除安全组规则”。 URI DELETE /v2.1/{project_id}/os-security-group-rules/{security_group_rule_id} 参数说明请参见表1。 表1
string API版本的状态。 CURRENT,这是使用的API的首选版本 SUPPORTED,这是一个较老的,但仍然支持的API版本。 DEPRECATED,一个被废弃的API版本,该版本将被删除。 version string 如果API的这个版本支持微版本,则支持最大的微版本。 如果不支持微版本,这将是空字符串。
恢复过程就是由核心模式切换到完整模式的过程,步骤如下: 登录弹性云服务器。 单击右上角的“Send CtrlAltDel”按钮,打开任务管理器。 选择“文件 > 运行新任务”。 系统打开“新建任务”窗口。 图1 新建任务 在“打开”栏,输入“cmd”,然后按回车键。 在弹出的命令行窗口执行以下命令,将系统由核心模式切换到完整模式。
at step EXEC spawning /CloudrResetPwdAgent/bin/./cloudResetPwdAgent.script: Permission denied systemd[1]: cloudResetPwdAgent.service: Control process
一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高怎么办? 问题描述 在弹性云服务器运行时,一键式重置密码插件占用虚拟内存VIRT和常驻内存SHR过高。 图1 查看虚拟内存占用情况 问题根因 应用程序使用内存的时候通过glibc的内存池来提供,glibc 2.10之前的版本中,只有一个内存池,称为main arena。从glibc
解决方案 远程登录ECS实例。 执行以下命令,查看ECS实例内核参数kernel.unknown_nmi_panic的值。 sysctl -n kernel.unknown_nmi_panic 如果内核参数的取值为1,说明是由于内核参数配置错误引起的ECS实例异常重启。 图1 排查结果
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的目标NVIDIA软件包版本以及CUDA软件版本。
可能是因为显卡过热,用户先停止业务,待显卡缓解过热后再执行nvidia-smi命令,查看ERR!是否消失。 如果回显正常,建议用户调整下业务,限制显卡运行的最大功率。 如果仍未恢复正常,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。 处理方法 用户停止业务并执行业务迁移。 执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持处理。
问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile Uncorr. ECC下ecc error > 0,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。 如果在volatile
NetworkManager服务无法启动,报错:Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错:Failed to restart