检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
建议一个安全组关联的实例数量不应超过6000个,否则会引起安全组性能下降。 在一个安全组中,对于入方向规则来说,源地址是安全组的规则数量+源地址是IP地址组的规则数量+端口是不连续端口号的规则数量 ≤ 120条,否则超过数量的安全组规则将不生效。当同时存在IPv4和IPv6类型的安全组规则
Linux云服务器网络性能测试方法 手把手教您用netperf工具、iperf3工具,测试弹性云服务器间网络性能。主要包括“测试准备”、“TCP带宽测试”、“UDP PPS测试”和“时延测试”。 背景知识 被测机:被压力测试网络性能的弹性云服务器,可作为netperf测试中的client端(发送端)或server端(接收端)。
问题影响 可能影响ECC相关非易失数据的记录,导致本该隔离的GPU内存页面继续使用。 处理方法 如果用户业务暂未受损,则无需处理。 通知用户停止业务,执行虚拟机迁移,并根据故障信息收集章节收集故障信息后,联系技术支持处理。 父主题: 显卡故障诊断及处理方法
服务器中的所有云硬盘(系统盘和数据盘)。 指定的单个或多个磁盘(系统盘或数据盘)。 推荐场景 需要对整个云服务器进行保护。 系统盘没有个人数据,因而只需要对部分的数据盘进行备份。 优势 备份的同一个服务器下的所有磁盘数据具有一致性,即同时对所有云硬盘进行备份,不存在因备份创建时间差带来的数据不一致问题。 保证数据安全的同时降低备份成本。
No devices were found 处理方法 查看云服务器的实例规格,确认用户使用的镜像信息。 如果使用NVIDIA Tesla T4 GPU(例如,Pi2或G6规格),请参见T4 GPU设备显示异常进行处理。 如果使用其他规格的GPU云服务器,执行下一步。 查看系统日志“/
-r 根据不同的系统在服务器中执行以下命令,查看安装驱动时的内核版本。 CentOS:find /usr/lib/modules -name nvidia.ko Ubuntu:find /lib/modules -name nvidia.ko 如果当前内核版本与安装驱动时的内核版本不
Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 非硬件故障自恢复处理方法
Blacklist为Yes,说明存在待隔离页,需要重新加载驱动去隔离。 处理方法 方法一: 执行以下命令,查看GPU使用情况并停掉所有占用GPU的进程。 nvidia-smi 执行以下命令,重置GPU。 nvidia-smi -r 执行以下命令,查看是否存在待隔离页。 nvidia-smi
如何处理用户安装了GRID驱动,但未购买、配置License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messages日志发现有如下报错,
CUDA工具包获取方式中的对应的索引项在页面中进行选择。 图14 选择CUDA的版本 选择完成后,页面会自动呈现出Ubuntu 20.04 64bit对应的CUDA 10.1的下载地址,复制下载地址。 在云服务器内部执行如下命令进行下载。 wget 复制的链接地址 例如:wget
stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。 79 GPU has fallen off the bus。总线脱落,需要下线维修 详情可以参考NVIDIA的Xid描述文档:https://docs.nvidia.com/
问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的目标NVIDIA软件包版本以及CUDA软件版本。 处理方法 推荐客户使用自动安
如果不是关机状态,单击“操作”列下的“更多 > 关机”。 单击“操作”列下的“更多 > 变更规格”。 系统进入“云服务器变更规格”页面。 根据界面提示,选择变更后的云服务器类型、vCPU和内存。 (可选)选择“专属主机”。 对于在专属主机上创建的弹性云服务器,系统支持更换云服务器所在的专属主机。 此
smi命令,查看ERR!是否消失。 如果回显正常,建议用户调整下业务,限制显卡运行的最大功率。 如果仍未恢复正常,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
如何查看和修改Linux弹性云服务器的内核参数? 本文总结了常用的Linux内核参数,以及Linux内核参数的查看、修改方法。 如果您的业务未受到影响,建议不要执行修改内核参数的操作。如需调整,请确保: 从实际需要出发,有相关数据的支撑。 了解每一个内核参数的含义,不同版本操作系统的内核参数可能不同。常用内核参数说明,请参见表1。
服务的访问控制 IAM身份认证 弹性云服务器支持通过IAM进行精细的权限管理,实现用户身份认证、权限分配、访问控制等功能,可以帮助您安全地控制资源的访问。 您可以在账号中创建IAM用户,并授权控制他们对资源的访问范围。IAM权限是作用于云资源的,IAM权限定义了允许和拒绝的访问操作,以此实现云资源权限访问控制。
kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep gcc #查看gcc版本 rpm -qa | grep
)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。 处理方法 用户停止业务并执行业务迁移。 执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile Uncorr. ECC下ecc error > 0,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。 如果在volatile
怎样查看GPU加速型云服务器的GPU使用率? 问题描述 Windows Server 2012和Windows Server 2016操作系统的GPU加速型云服务器无法从任务管理器查看GPU使用率。 本节操作介绍了两种查看GPU使用率的方法,方法一是在cmd窗口执行命令查看GPU使用率,方法二是通过安装gpu-Z工具查看GPU使用率。