检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择“手动创建连接”。 填写连接信息。 别名:创建的连接名称,如本例中,设置为“SSH01”。 地址:输入需要连接的 Linux 实例的公网IP地址。 连接类型:默认为SSH。 使用密钥:默认关闭,使用密码登录。 如果使用密钥对方式登录,请设置为开启。 账户认证:选择已创建认证信息。本例选择在5中创建的认证信息。
如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc
如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
如何处理用户使用场景与其选择的驱动、镜像不配套问题 问题描述 用户业务是做渲染(推理)的,但用户选择了带Tesla驱动(GRID驱动)的公共镜像,运行软件时出错。 例:用户使用场景为做渲染,但选错公共镜像,运行软件时报错“A D3D11-compatible GPU (Feature
Windows操作系统用户名:Administrator Linux操作系统用户名:root 如忘记登录密码或创建云服务器时未设置密码,可通过 “ 重置密码 ” 功能设置新密码。 如果重置密码后,仍然无法远程登录,有可能是云服务器的一键式重置密码插件失效,建议您通过以下操作进行: 重置W
启动较慢,您可以参考设置云服务器获取IPv6地址超时时间设置获取IPv6地址超时时间为30s,然后再重新制作私有镜像。 执行如下命令,查看当前云服务器是否启用IPv6。 ip addr 如果没有开启IPv6协议栈,则只能看到IPv4地址,如下图所示,请参考设置云服务器获取IPv6地址超时时间先开启IPv6协议栈。
弹性易用:根据业务需求和策略,自动调整弹性计算资源,高效匹配业务要求。 高效运维:提供控制台、远程终端和API等多种管理方式,给您完全管理权限。 云端监控:实时采样监控指标,提供及时有效的资源信息监控告警,通知随时触发随时响应。 负载均衡:弹性负载均衡将访问流量自动分发到多台云服务器,扩展应用系统对外的服务能力,实现更高水平的应用程序容错性能。
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 问题描述 用户在Windows设备管理器显示适配器中查询显卡属性,发现设备状态中存在错误“由于该设备有问题,Windows已将其停止”。 判断方式 确认用户发生问题时的操作,是否有出现显存OOM。 如果
快速入门 以下教程将引导您了解并使用QingTian Enclave特性,包括如何启动QingTian Enclave父虚拟机,如何构建QingTian Enclave镜像文件,如何查询正在运行的QingTian Enclave,以及停止QingTian Enclave。 准备一台支持QingTian
了解风险须知后,单击“下一步”。 进行“维护设置”。 选择“立即授权维护”。 即系统收到请求后,会在5个工作日内完成实例宿主机的系统维护。 图3 立即授权维护 选择“预约授权维护”,并设置维护时间。 即系统在收到请求后,会在设置的预约维护时间后5个工作日内完成系统维护操作。 图4 预约授权维护 设置预约维护时间
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。
作系统启动速度变慢等问题。 用户可以选择以下任一种方式设置镜像的网卡多队列属性。 方式1: 登录管理控制台。 单击“”,选择“计算 > 镜像服务”。 单击“私有镜像”页签,在对应镜像所在行的“操作”列下,单击“修改”。 设置镜像的网卡多队列属性。 方式2: 登录管理控制台。 单击“”,选择“计算
更换可用区。 设置“实例”。 图2 “实例”参数设置 表2 “实例”参数设置说明 参数 示例 说明 实例筛选 s7.xlarge.2 请根据业务需要选择合适的规格。更多信息,请参见规格清单。 设置“操作系统”。 图3 “操作系统”参数设置 表3 “操作系统”参数设置说明 参数 示例
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile
ECS登录方式概述 约束与限制 只有运行中的弹性云服务器才允许用户登录。 Linux操作系统用户名“root”。 忘记密码,请先通过“重置密码”功能设置登录密码。 重置密码:选中待重置密码的云服务器,并选择“操作”列下的“更多 > 重置密码”。详细操作,请参见在控制台重置ECS密码。 登录方式概述
云服务器状态为“运行中”。 请确保安全组已开放登录端口,默认使用22端口,如需使用其他端口可登录云服务器后重新设置。 修改远程登录端口请参考修改远程登录端口。配置安全组规则请参考配置安全组规则。 如果在创建云服务器时未设置密码,请先重置密码后再登录云服务器。 使用CloudShell连接云服务器支持公网连
盘分区设置为开机自动挂载,请参见设置开机自动挂载磁盘分区。 设置开机自动挂载磁盘分区 您可以通过配置fstab文件,设置弹性云服务器系统启动时自动挂载磁盘分区。已有数据的弹性云服务器也可以进行设置,该操作不会影响现有数据。 本文介绍如何在fstab文件中使用UUID来设置自动挂载
GPU实例故障自诊断 GPU实例故障,如果已安装GPU监控的CES Agent,当GPU服务器出现异常时则会产生事件通知,可以及时发现问题避免造成用户损失。如果没有安装CES Agent,只能依赖用户对故障的监控情况,发现故障后及时联系技术支持处理。 GPU实例故障处理流程 GPU实例故障分类列表
添加AD、DHCP、DNS、IIS服务 在“Server Manger > Local Server”中设置“IE Enhanced Security Configuration”为“Off”,关闭IE增强安全设置。 图1 IE增强安全设置 选择“Server Manger > Dashboard”。 单击“Add