检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
(推荐)自动安装GPU加速型ECS的GPU驱动(Linux) 操作场景 在使用GPU加速型实例时,需确保实例已安装GPU驱动,否则无法获得相应的GPU加速能力。 本节内容介绍如何在GPU加速型Linux实例上通过脚本自动安装GPU驱动。 使用须知 本操作仅支持Linux操作系统。 本操作当前仅支持安装Tesla驱动。
查询事件 操作场景 本文介绍如何通过弹性云服务器的控制台查询系统上报的事件。 您还可以通过云监控服务的“事件监控”查看ECS实例的事件,详细内容请参见查看事件监控数据。 前提条件 如果您通过IAM用户进行本操作,则需要在操作前对IAM用户进行授权。 查询及响应事件操作依赖以下策略:
常见的Linux操作系统安装图形化界面的操作指导,请参见: CentOS 6系列弹性云服务器如何安装图形化界面? CentOS 7系列弹性云服务器如何安装图形化界面? Ubuntu系列弹性云服务器如何安装图形化界面? Debian系列弹性云服务器如何安装图形化界面? 鲲鹏架构的弹性云服务器请先参考镜像源管理使用华为云提供的镜像源进行更新。
非硬件故障自恢复处理方法 如何处理Nouveau驱动未禁用导致的问题 如何处理ECC ERROR:存在待隔离页问题 如何处理升级内核后,驱动不可用问题 如何处理GPU掉卡问题 如何处理显卡ERR!问题 如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 如何处理驱动兼容性问题
镜像配置问题 如何处理Nouveau驱动未禁用导致的问题 ECC错误 如何处理ECC ERROR:存在待隔离页问题 内核升级问题 如何处理升级内核后,驱动不可用问题 GPU掉卡问题 如何处理GPU掉卡问题 显卡ERR! 如何处理显卡ERR!问题 软件安装问题 如何处理用户自行安装
故障信息收集 故障信息收集方法 如何获取显卡ID 如何查询显卡详细信息 如何查询显卡在位信息 如何查询NVIDIA的错误信息 如何查询XID报错信息 如何收集NVIDIA日志 如何查询内核信息 如何收集驱动安装信息 父主题: GPU实例故障自诊断
约束与限制 已安装Denyhosts插件。 该文档中操作涉及重启sshd服务,请在合理的时间进行操作。 方法一:通过编辑sshd配置文件实现允许或者禁止指定用户/用户组或者IP登录 允许指定用户进行登录(白名单) 在/etc/ssh/sshd_config 配置文件中设置All
适用于业务场景和预期业务量明确,想要快速完成传统办公、网站应用或电商等场景规格选型的用户。 通过共享VPC购买ECS 通过其他账号共享的VPC和子网购买ECS,实现网络资源的共享和统一管理,提升资源管控效率、降低运维成本。 购买相同配置ECS 通过“购买相同配置”功能可以快速购买与当前配置相同的ECS,节省配置时间。
64bit操作系统云服务器为例,介绍如何搭建Java Web环境 镜像部署Java Web环境 介绍如何使用市场镜像“Java环境”部署Java Web环境 手工搭建LNMP环境 以CentOS 7.2 64bit操作系统云服务器为例,介绍如何搭建LNMP环境 镜像部署LNMP环境 介绍如何使用市场镜像“LNMP平台(CentOS7
响应系统维护事件 操作场景 当系统上报“系统维护”事件时,您需要对ECS实例(含裸金属类型实例)进行“授权维护”操作。 本文介绍如何响应“待授权”状态的“系统维护”事件,指导您完成系统维护的授权操作。 授权维护包括两种模式: 立即授权维护:即系统收到请求后,会在5个工作日内完成实例宿主机的系统维护。
在这种情况下,如果使用操作系统dump,系统会将内存中的数据以存储文件的形式进行保存,以便于进行云服务器的故障定位和问题分析。 本文介绍如何配置操作系统dump的方法。 配置操作系统dump(Windows) 配置操作系统dump(Linux) 背景知识 操作系统dump,即内
Tomcat是一个免费的,开放源代码的Web应用服务器,是Apache软件基金会项目中的一个核心项目,是一款比较流行的web应用服务器。本教程介绍如何在HCE 2.0上安装部署Tomcat。 准备工作 准备一台ECS,并分配公网IP或者弹性公网IP(EIP)。 安全组入方向已放开8080端口。
假设本地盘的wwn号为wwn-0x50014ee2b14249f6,则执行的命令为:mount /dev/disk/by-id/wwn-0x50014ee2b14249f6 如何查看本地盘wwn号? 登录弹性云服务器操作系统。 执行以下命令,查看wwn号。 ll /dev/disk/by-id 鲲鹏超高I/O型弹性
入门指引 本节内容为您介绍如何购买和使用弹性云服务器,以及购买前需要完成的注册华为账户、开通华为云以及实名认证的操作步骤。 注册华为账号并实名认证 如果您已有一个华为账号,请跳到下一个任务。如果您还没有华为账号,请参考以下步骤创建。 打开华为云网站 单击“注册”,根据提示信息完成注册。
镜像部署Windows环境 简介 本节介绍如何使用华为云镜像,通过切换镜像部署Windows环境。当您已经购买了弹性云服务器,但想切换成其它类型操作系统,或者想使用镜像重新部署已经预装了其它软件的环境,可以参考本文档的介绍和操作指导。 切换操作系统的约束与限制可以参见切换操作系统。
CS的日常维护。 例如,如果您想批量在ECS上安装或卸载软件、重置密码或执行自动化运维脚本,即可通过免登录发送命令功能进行操作。 本文介绍如何通过管理控制台向单台或多台ECS发送命令。 约束与限制 该功能依赖云运维中心(Cloud Operations Center,简称COC),需开通并授权COC服务。
显卡故障诊断及处理方法 如何处理infoROM错误 如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 如何处理GPU掉卡,执行lspci
相关文档 显卡基本信息 如何获取显卡ID 如何查询显卡详细信息 如何查询显卡在位信息 显卡故障信息(Linux) 如何查询NVIDIA的错误信息 如何查询XID报错信息 NVIDIA日志收集(Linux) 如何收集NVIDIA日志 镜像内核信息收集(Linux) 如何查询内核信息 驱动安装信息收集(Linux)
预装版本是否符合需求。 使用私有镜像创建的GPU加速型实例,如需安装GRID驱动请参考手动安装GPU加速型ECS的GRID驱动。 如果需要实现计算加速能力,则需要安装Tesla驱动。 使用公共镜像创建的计算加速型(P系列)实例默认已安装特定版本的Tesla驱动。 使用私有镜像创建
由于物理机故障导致云服务器发生迁移,迁移时可能会出现重启或关机现象,建议您在系统业务进程配置自动拉起和开机自启动,或者通过业务集群部署、主备部署等方式实现业务的高可用。 部分软件的鉴权模式可能会导致license与物理机的硬件信息绑定,云服务器的迁移操作可能会引起物理信息变更进而导致license失效。