检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
devices were found 处理方法 查看云服务器的实例规格,确认用户使用的镜像信息。 如果使用NVIDIA Tesla T4 GPU(例如,Pi2或G6规格),请参见T4 GPU设备显示异常进行处理。 如果使用其他规格的GPU云服务器,执行下一步。 查看系统日志“/var/lo
minRam 否 Integer 镜像要求的最小内存大小,单位MB。 minDisk 否 Integer 镜像要求的最小磁盘大小,单位GB。 表3 nova和glance中的镜像状态映射关系 glance中的镜像状态 nova显示的镜像状态 queued saving saving
删除安全组规则(废弃) 功能介绍 删除安全组规则。 当前API已废弃,请使用“删除安全组规则”。 URI DELETE /v2.1/{project_id}/os-security-group-rules/{security_group_rule_id} 参数说明请参见表1。 表1
问题现象 在云服务器执行以下命令查看系统当前版本: /etc/redhat-release 得到当前云服务器版本为CentOS 7.6。但在控制台使用的镜像为CentOS 7.2(或者低于7.6的其他版本)。 本节操作适用于CentOS、EulerOS操作系统云服务器。 根因分析
而进行系统定位。由于个别型号的CPU会在正常业务流程中产生NMI中断,在这种情况下如果将内核参数kernel.unknown_nmi_panic配置为1,将会导致ECS产生非预期的异常重启事件。 解决方案 远程登录ECS实例。 执行以下命令,查看ECS实例内核参数kernel.unknown_nmi_panic的值。
如果API的这个版本支持微版本,则支持最小的微版本。 如果不支持微版本,这将是空字符串。 status string API版本的状态: CURRENT这是使用的API的首选版本; SUPPORTED:这是一个较老的,但仍然支持的API版本; DEPRECATED:一个被废弃的API版本,该版本将被删除
Linux系统中对磁盘空间的占用分为以下两个方面: 物理磁盘空间。 inode节点所占用的磁盘空间。 inode(索引节点)保存了文件系统中的一个文件系统对象(包括文件、目录、设备文件、socket、管道等)的元信息数据,但不包括数据内容或者文件名。 约束与限制 本节操作涉及初始化磁盘的操作,请先备份数据后进行操作。
查询SSH密钥列表(废弃) 功能介绍 查询SSH密钥信息列表。 当前API已废弃,请使用查询SSH密钥对列表。 调试 您可以在API Explorer中调试该接口。 URI GET /v2.1/{project_id}/os-keypairs 参数说明请参见表1。 表1 参数说明
后在合理的时间重启系统,请评估风险后操作。 根因分析 iptables的connection-tracking模块使用系统内存的一部分来跟踪表中的连接。“table full, dropping packet”表明连接跟踪表已满,不能为新连接创建新的条目,因为没有更多的空间。因此出现“dropping
国-香港。 请确认已经配置了华为云提供的内网DNS服务器地址。 华为云内网DNS地址,请参见华为云提供的内网DNS地址是多少。 配置DNS地址请参考如何为ECS配置DNS?。 本节操作适用于x86_64架构和鲲鹏架构的云服务器。 当前支持的操作系统版本包括:EulerOS、CentOS、Debian、Ubuntu。
示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 非硬件故障自恢复处理方法
如何处理GPU掉卡问题 问题描述 执行nvidia-smi命令查询到的显卡的数量较实际规格对应的显卡数量少。 如上图所示,执行nvidia-smi命令查询到7张显卡,实际该机型应有8张显卡。 判断方式 执行以下命令,显卡的数量与实际规格对应的显卡数量一致,且显卡在位状态正常(rev a1),请继
string API版本的状态。 CURRENT,这是使用的API的首选版本 SUPPORTED,这是一个较老的,但仍然支持的API版本。 DEPRECATED,一个被废弃的API版本,该版本将被删除。 version string 如果API的这个版本支持微版本,则支持最大的微版本。 如果不支持微版本,这将是空字符串。
问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr. ECC下ecc error > 0,
-r 根据不同的系统在服务器中执行以下命令,查看安装驱动时的内核版本。 CentOS:find /usr/lib/modules -name nvidia.ko Ubuntu:find /lib/modules -name nvidia.ko 如果当前内核版本与安装驱动时的内核版本不
如何处理用户安装了GRID驱动,但未购买、配置License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messages日志发现有如下报错,
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的目标NVIDIA软件包版本以及CUDA软件版本。
可能是因为显卡过热,用户先停止业务,待显卡缓解过热后再执行nvidia-smi命令,查看ERR!是否消失。 如果回显正常,建议用户调整下业务,限制显卡运行的最大功率。 如果仍未恢复正常,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
NetworkManager服务无法启动,报错:Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错:Failed to restart