检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc error,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。
登录管理控制台,并通过VNC方式登录云服务器。 执行以下命令,查看是否开启了firewalld。 systemctl status firewalld 图1 开启firewalld 如图1所示,系统已开启firewalld。 执行以下命令,查看firewalld中的规则。 firewall-cmd
服务器进行自定义配置,只能使用镜像原有密码登录云服务器。 使用公共镜像创建的云服务器,默认已经安装Cloudbase-Init,不需要执行安装及配置操作。 使用外部镜像文件创建的云服务器,请按照指导安装及配置Cloudbase-Init。 详细操作请参考安装并配置Cloudbase-Init工具。
GPU实例故障处理流程如图1所示,对应的操作方法如下: CES监控事件通知:配置GPU的CES监控后会产生故障事件通知。 故障信息收集:可使用GPU故障信息收集脚本一键收集,也可参考故障信息收集执行命令行收集。 GPU实例故障分类列表:根据错误信息在故障分类列表中识别故障类型。
addSecurityGroup参数信息 参数 是否必选 参数类型 描述 name 是 String 弹性云服务器添加的安全组名称或者uuid,会对云服务器中配置的网卡生效。 响应消息 无 请求示例 为指定云服务器添加一个安全组。 POST https://{endpoint}/v2.1/{proj
如何查询显卡在位信息 查询显卡在位信息方法如下: 登录弹性云服务器。 执行以下命令,查看显卡在位情况,确认是否和服务器规格显卡数一致,保存回显结果。 lspci | grep NV 如下图所示,可以看到有一张GPU显卡,且显卡是rev a1,状态正常;如果为rev ff或其他状态,则显卡可能故障。
GPU实例故障自诊断 GPU实例故障,如果已安装GPU监控的CES Agent,当GPU服务器出现异常时则会产生事件通知,可以及时发现问题避免造成用户损失。如果没有安装CES Agent,只能依赖用户对故障的监控情况,发现故障后及时联系技术支持处理。 GPU实例故障处理流程 GPU实例故障分类列表
Firmware,导致GPU无法识别。 处理方法一 该处理方法在重启云服务器后失效。 执行以下命令,移除NVIDIA内核模块。 rmmod nvidia_drm rmmod nvidia_modeset rmmod nvidia 执行以下命令,关闭GSP Firmware开关,并载入NVIDIA内核模块。 modprobe
打开“运行 > cmd”,进入到错误文件所在目录。 本例执行如下命令: cd C:\Windows\System32 通过命令regsvr32.exe /u 文件名,进行移除,移除后恢复正常。 本例执行如下命令: regsvr32.exe /u Mglayout64.dll 图1
通过价格计算器了解不同规格配置的实例对应的价格。 如果已经有合适规格的实例,可以使用已有的实例直接部署网站。如果没有合适规格的实例,请先购买实例,详细操作请参见自定义购买ECS。 部署网站 根据需要部署的网站类型,可以选择镜像部署或者手工搭建,具体部署方法请参见搭建网站汇总。 购买域名
单击“Next”,直至安装完成。 单击“Complete DHCP Configuration”,开始配置DHCP功能。 图10 DHCP Configuration 1 单击“Next”,选择默认配置。 图11 DHCP Configuration 2 单击“Commit”。 配置完成,单击“Close”。
PU硬件、NVIDIA软件或您应用程序中的错误类型、错误位置、错误代码等信息。 查询XID报错信息方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在xid相关报错,保存回显结果。 dmesg | grep -i xid 若检查项GPU节点上的XID异常为空,说明无XID消息。
作的私有镜像,且在创建该私有镜像时未安装Cloudbase-init工具。 原因二:Windows弹性云服务器的镜像安装了Cloudbase-init工具,但是在创建弹性云服务器时,获取密钥失败。 处理方法 针对原因一: 创建私有镜像时不安装Cloudbase-init工具,将无
通过策略路由让访问扩展网卡的流量从扩展网卡发出,方法如下: 执行以下命令,编辑文件rt_tables。 vi /etc/iproute2/rt_tables 添加一个route table的别名,如test。 保存后退出。 执行以下命令,在test表中添加路由。 ip route add default
systemctl start network 出现network启动失败可能为系统内置多网卡配置文件导致,处理方法参考多网卡配置文件导致network启动失败处理。 Ubuntu16.04操作系统 执行以下命令使用networking管理网络。 systemctl disable NetworkManager
查询任务的执行状态 功能介绍 查询一个异步请求任务(Job)的执行状态。 对于创建云服务器、删除云服务器、云服务器批量操作和网卡操作等异步API,命令下发后,会返回任务ID(Job_id),通过Job_id可以查询本次异步请求任务的执行状态。 如何获取job_id,请参考响应(任务类)。
19d4a692", "metering.resourcespeccode":"c3.large.2.linux", "image_name":"HEC_Public_Cloudinit_CentOS_7.4_64bit"
7版本后,可能会引起Cloud-init不工作,具体表现为:弹性云服务器的密码、密钥、hostname等信息无法通过Cloud-init注入。 执行命令cloud-init -v查询Cloud-init的版本,回显报错,如图1所示。 图1 Cloud-init运行异常 可能原因 Cloud
"metering.imagetype": "gold", "metering.resourcespeccode": "c6s.large.2.linux", "image_name": "CentOS 8.2 64bit", "os_bit": "64", "cascaded
使用前准备 绑定弹性公网IP 下载开发套件 安装和配置fisclient工具