检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
如何处理用户使用场景与其选择的驱动、镜像不配套问题 问题描述 用户业务是做渲染(推理)的,但用户选择了带Tesla驱动(GRID驱动)的公共镜像,运行软件时出错。 例:用户使用场景为做渲染,但选错公共镜像,运行软件时报错“A D3D11-compatible GPU (Feature
区域与可用区 什么是可用区,怎样选择和查看可用区? 如何选择区域? 区域之间是否存在产品差异? 如何获取弹性云服务器的物理机房位置? 可用区之间的数据传输是否需要收费? 云服务器购买成功后,是否可以更换区域和可用区? 弹性云服务器可以迁移到其他区域/可用区/账号吗? 不同区域之间的云服务器可以使用负载均衡吗?
full, dropping packet Ubuntu操作系统如何设置默认启动内核 怎样配置Linux分析工具:atop和kdump 为什么操作系统实际版本与购买时镜像版本不一致? 云服务器新内核启动失败如何设置使用第二内核启动 CentOS 7中/etc/rc.local开机启动脚本不生效怎么办?
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
本地Windows主机使用OBS上传文件到Windows云服务器 操作场景 云服务器支持通过内网访问OBS,OBS可供用户存储任意类型的数据。将图片、视频等数据存储至OBS后,在ECS上可以访问OBS,下载桶中的图片或视频等数据。通过内网访问OBS,可以避免因网络不稳定导致的数据
重启后盘符发生变化怎么办? 用户误删除Tools后,如何获取数据盘信息? Linux弹性云服务器挂载NVMe SSD盘异常,如何修复? 为什么C6服务器盘符格式是sd*? 弹性云服务器磁盘格式化为ext4分区后,为什么会打印磁盘报错日志? 如何转换磁盘MBR分区为GPT分区?
您可以通过配置fstab文件,设置弹性云服务器系统启动时自动挂载磁盘分区。已有数据的弹性云服务器也可以进行设置,该操作不会影响现有数据。 本文介绍如何在fstab文件中使用UUID来设置自动挂载磁盘分区。不建议采用在“/etc/fstab”直接指定设备名(比如/dev/vdb1)的方法,
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 问题描述 用户在Windows设备管理器显示适配器中查询显卡属性,发现设备状态中存在错误“由于该设备有问题,Windows已将其停止”。 判断方式 确认用户发生问题时的操作,是否有出现显存OOM。 如果
Windows弹性云服务器没有声音? 问题描述 购买Windows弹性云服务器后,通过MSTSC远程连接,发现没有声音。通过MSTSC远程连接的Windows弹性云服务器如何播放音频? 约束限制 本节内容适用于Windows Server 2008 R2、Windows Server
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。
请求示例 POST https://{Endpoint}/v1/{project_id}/vpcs {endpoint}信息请从地区和终端节点获取。 Body: { "vpc": { "name": "vpc", "description":
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile
通过移动设备登录Linux ECS 操作场景 本节操作介绍如何在移动设备上连接Linux实例。 以Termius为例介绍如何在iOS设备上连接 Linux 实例,详细操作请参考IOS设备上登录Linux云服务器。 以JuiceSSH为例介绍如何在Android设备上连接 Linux 实例,详
故障信息收集 故障信息收集方法 如何获取显卡ID 如何查询显卡详细信息 如何查询显卡在位信息 如何查询NVIDIA的错误信息 如何查询XID报错信息 如何收集NVIDIA日志 如何查询内核信息 如何收集驱动安装信息 父主题: GPU实例故障自诊断
云硬盘:系统盘和额外购买的数据盘费用。 带宽:根据所选带宽大小计算的费用。 镜像费用:基于Windows镜像的市场价格。 计费原理 购买竞享实例时,需要选择保障周期(1-6小时),保障周期不同价格不同。保障周期是购买竞享实例的最小单位时间。 竞享实例购买成功后,当达到用户购买时长或库存资
镜像部署Windows环境 简介 本节介绍如何使用华为云镜像,通过切换镜像部署Windows环境。当您已经购买了弹性云服务器,但想切换成其它类型操作系统,或者想使用镜像重新部署已经预装了其它软件的环境,可以参考本文档的介绍和操作指导。 切换操作系统的约束与限制可以参见切换操作系统。
显卡故障诊断及处理方法 如何处理infoROM错误 如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 如何处理GPU掉卡,执行lspci