检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
约束与限制 只有运行中的云服务器才允许用户登录。 Windows操作系统用户名“Administrator”。 忘记密码,请先通过“重置密码”功能设置登录密码。 重置密码:选中待重置密码的云服务器,并选择“操作”列下的“更多 > 重置密码”。详细操作,请参见在控制台重置ECS密码。 对于
选择“手动创建连接”。 填写连接信息。 别名:创建的连接名称,如本例中,设置为“SSH01”。 地址:输入需要连接的 Linux 实例的公网IP地址。 连接类型:默认为SSH。 使用密钥:默认关闭,使用密码登录。 如果使用密钥对方式登录,请设置为开启。 账户认证:选择已创建认证信息。本例选择在5中创建的认证信息。
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。
购买ECS ECS购买方式导航 自定义购买ECS 购买竞价计费型ECS 购买竞享计费型ECS 通过私有镜像购买ECS 通过智能购买助手购买ECS 通过规格选型引导购买ECS 通过共享VPC购买ECS 相同配置ECS 父主题: 实例
如何处理用户使用场景与其选择的驱动、镜像不配套问题 问题描述 用户业务是做渲染(推理)的,但用户选择了带Tesla驱动(GRID驱动)的公共镜像,运行软件时出错。 例:用户使用场景为做渲染,但选错公共镜像,运行软件时报错“A D3D11-compatible GPU (Feature
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
Windows操作系统用户名:Administrator Linux操作系统用户名:root 如忘记登录密码或创建云服务器时未设置密码,可通过 “ 重置密码 ” 功能设置新密码。 如果重置密码后,仍然无法远程登录,有可能是云服务器的一键式重置密码插件失效,建议您通过以下操作进行: 重置W
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 问题描述 用户在Windows设备管理器显示适配器中查询显卡属性,发现设备状态中存在错误“由于该设备有问题,Windows已将其停止”。 判断方式 确认用户发生问题时的操作,是否有出现显存OOM。 如果
启动较慢,您可以参考设置云服务器获取IPv6地址超时时间设置获取IPv6地址超时时间为30s,然后再重新制作私有镜像。 执行如下命令,查看当前云服务器是否启用IPv6。 ip addr 如果没有开启IPv6协议栈,则只能看到IPv4地址,如下图所示,请参考设置云服务器获取IPv6地址超时时间先开启IPv6协议栈。
快速入门 以下教程将引导您了解并使用QingTian Enclave特性,包括如何启动QingTian Enclave父虚拟机,如何构建QingTian Enclave镜像文件,如何查询正在运行的QingTian Enclave,以及停止QingTian Enclave。 准备一台支持QingTian
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。
弹性易用:根据业务需求和策略,自动调整弹性计算资源,高效匹配业务要求。 高效运维:提供控制台、远程终端和API等多种管理方式,给您完全管理权限。 云端监控:实时采样监控指标,提供及时有效的资源信息监控告警,通知随时触发随时响应。 负载均衡:弹性负载均衡将访问流量自动分发到多台云服务器,扩展应用系统对外的服务能力,实现更高水平的应用程序容错性能。
了解风险须知后,单击“下一步”。 进行“维护设置”。 选择“立即授权维护”。 即系统收到请求后,会在5个工作日内完成实例宿主机的系统维护。 图3 立即授权维护 选择“预约授权维护”,并设置维护时间。 即系统在收到请求后,会在设置的预约维护时间后5个工作日内完成系统维护操作。 图4 预约授权维护 设置预约维护时间
作系统启动速度变慢等问题。 用户可以选择以下任一种方式设置镜像的网卡多队列属性。 方式1: 登录管理控制台。 单击“”,选择“计算 > 镜像服务”。 单击“私有镜像”页签,在对应镜像所在行的“操作”列下,单击“修改”。 设置镜像的网卡多队列属性。 方式2: 登录管理控制台。 单击“”,选择“计算
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile
ECS登录方式概述 约束与限制 只有运行中的弹性云服务器才允许用户登录。 Linux操作系统用户名“root”。 忘记密码,请先通过“重置密码”功能设置登录密码。 重置密码:选中待重置密码的云服务器,并选择“操作”列下的“更多 > 重置密码”。详细操作,请参见在控制台重置ECS密码。 登录方式概述
更换可用区。 设置“实例”。 图2 “实例”参数设置 表2 “实例”参数设置说明 参数 示例 说明 实例筛选 s7.xlarge.2 请根据业务需要选择合适的规格。更多信息,请参见规格清单。 设置“操作系统”。 图3 “操作系统”参数设置 表3 “操作系统”参数设置说明 参数 示例
云服务器状态为“运行中”。 请确保安全组已开放登录端口,默认使用22端口,如需使用其他端口可登录云服务器后重新设置。 修改远程登录端口请参考修改远程登录端口。配置安全组规则请参考配置安全组规则。 如果在创建云服务器时未设置密码,请先重置密码后再登录云服务器。 使用CloudShell连接云服务器支持公网连
盘分区设置为开机自动挂载,请参见设置开机自动挂载磁盘分区。 设置开机自动挂载磁盘分区 您可以通过配置fstab文件,设置弹性云服务器系统启动时自动挂载磁盘分区。已有数据的弹性云服务器也可以进行设置,该操作不会影响现有数据。 本文介绍如何在fstab文件中使用UUID来设置自动挂载