检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何处理升级内核后,驱动不可用问题 问题描述 客户执行nvidia-smi,报错failded to initialize NVML: Driver/library version mismatch。 客户执行nvidia-smi,报错NVIDIA-SMI has failed because
文件系统错误导致文件系统进入只读模式。 文件系统是以只读方式进行的挂载。 硬件故障,包括磁盘有坏道或者Raid卡故障等硬件问题。 操作须知 修复文件系统,可能会产生数据丢失,请先备份数据后进行操作。 如以下场景均不符合,请检查存储或者磁盘硬件是否存在故障。 场景一:文件系统以只读方式挂载导致删除或者修改类操作失败
私有镜像包含操作系统或业务数据、预装的公共应用以及用户的私有应用的镜像,仅用户个人可见。 表1 私有镜像类型 镜像类型 说明 系统盘镜像 包含用户运行业务所需的操作系统、应用软件的镜像。系统盘镜像可以用于创建云服务器,迁移用户业务到云。 数据盘镜像 只包含用户业务数据的镜像。数据镜像可以用于创建云硬盘,将用户的业务数据迁移到云上。
如何处理可恢复的Xid故障问题 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing,
远程连接Windows云服务器报错:您的凭据无法工作 问题描述 Windows操作系统的本地PC,通过RDP协议(如MSTSC方式)远程桌面连接Windows弹性云服务器报错,报错显示:您的凭据无法工作,之前用于连接到云主机的凭据无法工作,请输入新凭据。 处理方法 请按照以下步骤
解密,进行数据处理后,最后将结果输出到Bucket2。 数据和环境准备 接下来,我们将概述一下关于数据加密、证明设置和QingTian Enclave实例创建的相关流程。 安全员在华为云数据加密服务的密钥管理子服务中创建KMS密钥。 安全员使用KMS密钥加密一段敏感数据(例如银行
指定的单个或多个云硬盘(系统盘或数据盘) 系统盘没有个人数据,因而只需要对部分的数据盘进行备份 当云硬盘出现故障或云硬盘中的数据发生逻辑错误时(如误删数据、遭遇黑客攻击或病毒危害等),可快速恢复数据。 备份作为基线数据 设置备份策略,根据策略自动对云硬盘进行数据备份,通过定期创建的备份作为基线数据,用来创建新的云硬盘或者恢复数据到云硬盘。
如何处理ECC ERROR:存在待隔离页问题 问题描述 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。 某台虚拟机显存使用率突然降低。 判断方式 执行以下命令,查看显卡是否存在ecc error。 nvidia-smi 如果1的回显结果中volatile Uncorr
如何处理用户安装了GRID驱动,但未购买、配置License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messa
月非共享的数据盘,到期时间与云服务器一致,该数据盘处于“正在使用”、“可用”或“错误”状态时,支持退订云服务器时同时退订数据盘,也可以单独退订包年/包月数据盘。 单独购买的包年/包月共享/非共享数据盘,到期时间与挂载的包年/包月云服务器不一致,支持单独退订包年/包月数据盘。 父主题:
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
创建和导入SSH密钥(废弃) 功能介绍 创建SSH密钥,或把公钥导入系统,生成密钥对。 创建SSH密钥成功后,请把响应数据中的私钥内容保存到本地文件,用户使用该私钥登录云服务器。为保证云服务器安全,私钥数据只能读取一次,请妥善保管。 密钥对创建后默认是属于创建用户的,如果是子账号创建的密钥,包括主账号
GPU加速型 2021年1月 序号 功能名称 功能描述 阶段 相关文档 1 支持通过元数据获取ECS的网络基准带宽、最大带宽元数据 支持通过元数据获取ECS的网络基准带宽、最大带宽元数据。 商用 元数据的获取 2 支持虚拟机所在服务器的硬件故障事件通知 通过添加告警策略“主机进程异常
这个文件写数据。 Linux系统中的一个文件在文件系统中存放分为两个部分:数据部分和指针部分,指针位于文件系统的meta-data中,在将数据删除后,这个指针就从meta-data中清除了,而数据部分存储在磁盘中。在将数据对应的指针从meta-data中清除后,文件数据部分占用的
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
本文档适用于X86架构的CentOS 7、Ubuntu、EulerOS操作系统云服务器。 本节操作会卸载云服务器的系统盘,为避免数据丢失,请在重置root密码前请先做好数据备份。 前提条件 已经准备一台Linux操作系统的临时云服务器,且该临时云服务器与待重置密码的云服务器位于同一个可用区。
如何处理用户使用场景与其选择的驱动、镜像不配套问题 问题描述 用户业务是做渲染(推理)的,但用户选择了带Tesla驱动(GRID驱动)的公共镜像,运行软件时出错。 例:用户使用场景为做渲染,但选错公共镜像,运行软件时报错“A D3D11-compatible GPU (Feature
如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc