检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ia-smi命令查询是否安装了驱动以及确认驱动类型、驱动版本。 如客户选择自行安装Tesla驱动,请务必告知客户确保Tesla驱动与CUDA软件的版本配套关系,可参考Tesla驱动及CUDA工具包获取方式。 处理方法 如果用户未安装驱动,请自行安装驱动,或切换带驱动的公共镜像,或使用驱动自动安装脚本安装驱动。
怎样查看GPU加速型云服务器的GPU使用率? 问题描述 Windows Server 2012和Windows Server 2016操作系统的GPU加速型云服务器无法从任务管理器查看GPU使用率。 本节操作介绍了两种查看GPU使用率的方法,方法一是在cmd窗口执行命令查看GPU使用率,方法二是通过安装gpu-Z工具查看GPU使用率。
取值为0和1 。0表示忽略,1则进行备份。大部分的用户是没有安装dump的,[dump]应设为0。 [fsck] fsck读取[fsck]的数值来决定需要检查的文件系统的检查顺序。 取值为0,1,和2。 根目录应当获得最高的优先权1, 其它所有需要被检查的设备设置为2,0表示设备不会被fsck所检查。
如何查询内核信息 查询内核信息的方法如下: 登录弹性云服务器。 执行以下命令,查看内核版本。 uname -r 执行以下命令,查看安装驱动时的内核版本。 Ubuntu:find /lib/modules -name nvidia.ko CentOS:find /usr/lib/modules
Linux云服务器网络性能测试方法 手把手教您用netperf工具、iperf3工具,测试弹性云服务器间网络性能。主要包括“测试准备”、“TCP带宽测试”、“UDP PPS测试”和“时延测试”。 背景知识 被测机:被压力测试网络性能的弹性云服务器,可作为netperf测试中的client端(发送端)或server端(接收端)。
显卡故障诊断及处理方法 如何处理infoROM错误 如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 如何处理GPU掉卡,执行lspci
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
如果用户使用的是vGPU实例,确认实例安装的驱动与主机的驱动版本是否匹配。 登录实例所在主机。 执行nvidia-smi命令,查看驱动版本,并对照版本配套关系。 版本配套关系:https://docs.nvidia.com/grid/index.html 处理方法 重启GPU弹性云服务器。
命令,变更权限。 chmod 400 /path/kp-123.pem 上述命令的path为密钥文件的存放路径。 执行如下命令,登录弹性云服务器。 ssh -i /path/kp-123.pem 默认用户名@弹性公网IP 假设Linux弹性云服务器的默认用户名是root,弹性公网IP为123
详情可以参考NVIDIA的Xid描述文档:https://docs.nvidia.com/deploy/xid-errors/index.html。 处理方法 尝试重新运行作业并观察Xid错误是否消失。 若错误持续存在,尝试检查代码或分析日志,确认是否为程序引入的Xid故障。 若确认不是程序引入,请联系技术支持处理。
的“修改私有IP地址”。 系统打开“修改私有IP地址”窗口。 请根据需要修改主网卡的“子网”、“私有IP地址”。 只能在同一VPC下更换子网。 如果未填写修改后的“私有IP地址”,系统会自动分配一个新的私有IP地址给主网卡使用。 父主题: 弹性网卡管理
如何获取显卡ID Linux操作系统获取显卡ID的方法如下: 登录弹性云服务器。 在任意路径下执行nvidia-smi命令。(CCE集群场景为/opt/cloud/cce/nvidia/bin目录下) Windows操作系统获取显卡ID的方法如下: 进入到C:\Program Files\NVIDIA
部安全防护”两方面。 表1 提升云服务器安全的方法 类型 说明 防护方法 外部安全防护 常见的DDoS攻击、木马或病毒的入侵都是常见的外部安全问题。针对这类问题有多种常见的防护方案,例如开启主机安全防护您可以根据您的实际业务选择合适的防护方案。 开启主机安全防护 配置云堡垒机 监控云服务器
DNS服务器用于解析弹性文件服务中文件系统的域名。DNS服务器东北区IP地址为100.125.6.250,其它区域详情请参见华为云内网DNS地址。 操作场景 默认情况下,用于解析文件系统域名的DNS服务器的IP地址会在创建ECS时自动配置到ECS上,不需要人工配置。除非默认的DNS服
NTP服务器域名或IP地址 示例: 假设NTP服务器的IP地址为192.168.56.1,则待添加的语句如下: server 192.168.56.1 执行以下命令,系统重新启动时启动服务。 service ntp restart 执行以下命令,检查NTP服务器的状态。 service ntp status
批量重置弹性云服务器管理账号(root用户或Administrator用户)的密码。 接口约束 使用此API,需预先安装重置密码插件。一键式重置密码插件的下载与安装,请参见《弹性云服务器用户指南》的“安装一键式重置密码插件”章节。 弹性云服务器的重置密码请求下发后,脚本执行失败,该API不会报错。 弹性云服务器开机或重启后,新密码生效。
两台Windows云服务器所属的网络应一致,如均为“公用”或均为“专用”,并勾选“启用网络发现”、“启用共享以便可以访问网络的用户可以读取和写入公用文件夹中的文件”。 图4 启用网络发现 图5 启用共享以便可以访问网络的用户可以读取和写入公用文件夹中的文件 如果无法启用网络发现功能,您可以通过运行services
云服务器 1分钟 net_errin (Agent) 接收误包率 该指标用于统计测量对象网卡每秒接收的错误数据包数量占所接收的数据包的比率。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):暂不支持。 0-100%
如何处理驱动兼容性问题 如何处理可恢复的Xid故障问题 如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 如何处理用户使用场景与其选择的驱动、镜像不配套问题 如何处理用户安装了GRID驱动,但未购买、配置License问题 父主题: GPU实例故障自诊断
问题影响 可能影响ECC相关非易失数据的记录,导致本该隔离的GPU内存页面继续使用。 处理方法 如果用户业务暂未受损,则无需处理。 通知用户停止业务,执行虚拟机迁移,并根据故障信息收集章节收集故障信息后,联系技术支持处理。 父主题: 显卡故障诊断及处理方法