检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Integer 元数据数量配额 ram Integer 内存配额,单位MB security_group_rules Integer 每个安全组规则的配额,目前不支持此参数 security_groups Integer 安全组数量配额,目前不支持此参数 server_groups Integer
Cron表达式:通过设置秒、分、时、日、月、周的Cron表达式,设置定时任务的执行周期和时间。 详细内容,请参见Cron表达式使用。 规则结束时间 周期执行的定时任务的结束时间。 仅当“定时类型”选择“周期执行”时,会显示该参数。 任务类型 定时任务的类型,包括: 当步骤2选
1/{project_id}/servers/{server_id} 参数说明请参见表1。 表1 参数说明 参数 是否必选 描述 project_id 是 项目ID。 获取方法请参见获取项目ID。 server_id 是 云服务器ID。 请求消息 请求参数如表2所示。 表2 请求参数 参数 是否必选 参数类型 描述
云服务器内存不足。 处理方法 方法一(推荐): 变更规格,升级云服务器的CPU、内存大小。变更规格的方法,请参见变更规格(CPU和内存)。 方法二: 开启虚拟内存,获取云服务器的空闲内存。 开启虚拟内存的方法,请参见怎样配置Windows弹性云服务器的虚拟内存?。 该方法会导致磁盘I/O性能下降,如非必要,不推荐使用。
云服务器内存不足。 处理方法 方法一(推荐): 变更规格,升级云服务器的CPU、内存大小。变更规格的方法,请参见变更规格(CPU和内存)。 方法二: 开启虚拟内存,获取云服务器的空闲内存。 开启虚拟内存的方法,请参见怎样配置Windows弹性云服务器的虚拟内存?。 该方法会导致磁盘I/O性能下降,如非必要,不推荐使用。
kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep gcc #查看gcc版本 rpm -qa | grep
是否必选 描述 project_id 是 项目ID。 获取方法请参见获取项目ID。 请求消息 请求参数如表2所示。 表2 请求参数 参数 参数类型 是否必选 描述 name String 是 弹性云服务器修改后的名称。 规则如下: 只能由中文字符、英文字母、数字及“_”、“-”、“
码重置密码。 弹性云服务器已经绑定弹性公网IP,绑定方式请参见绑定弹性公网IP。 所在安全组入方向已开放22端口,配置方式请参见配置安全组规则。 IOS设备上登录Linux云服务器 如果您使用iOS设备,请确保已经安装了SSH客户端工具,以Termius为例。本示例中使用CentOS
com/deploy/xid-errors/index.html。 处理方法 执行dmesg | grep –i xid命令,查看是否存在xid报错。 通知用户停止业务,执行业务迁移,并根据故障信息收集章节收集故障信息后,联系技术支持处理。 父主题: 显卡故障诊断及处理方法
判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的目标NVIDIA软件包版本以及CUDA软件版本。 处理方法 推荐客户使用自动安装驱动脚本。根据当前华为云驱动自动安装脚本中提供的CUDA版本,按需安装。 GPU加速型实例自动安装GPU驱动(Linux)
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障信息收集
如果不能访问弹性云服务器的22端口,请检查安全组22端口是否放通。 在云服务器的详情页面选择“安全组”页签,查看安全组入方向规则中已添加22端口。 图5 检查远程访问端口 如需修改安全组规则请参考如何修改安全组规则。 完成上述操作后,再次重试远程连接云服务器。 远程访问端口配置异常 检查弹性云服务器内部设置。
ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令查看显卡信息。 如果在volatile Uncorr. ECC下发现存在ecc error,执行nvidia-smi
ip_forward = 1”。 执行如下命令,完成修改。 sysctl -p /etc/sysctl.conf 在“iptables”的“nat”表中添加规则,执行如下命令,通过弹性云服务器1的1080端口映射到弹性云服务器2的22端口。 iptables -t nat -A PREROUTING
执行nvidia-smi命令,查看驱动版本,并对照版本配套关系。 版本配套关系:https://docs.nvidia.com/grid/index.html 处理方法 重启GPU弹性云服务器。 若显示适配器恢复正常,则恢复完成。 若仍异常,则执行下一步。 请尝试重装GPU驱动或升级驱动版本。请参考安装GPU驱动。
包括删除、查询镜像等接口。 当前镜像管理API已废弃,请使用镜像服务接口。 安全组管理 包括添加、移除、查询、创建、更新、删除安全组及安全组规则等接口。 规格管理 查询弹性云服务器的规格列表、详情等接口。 网卡管理 包括添加、删除、查询弹性云服务器的网卡等接口。 磁盘管理 包括弹性云服务器的挂载、卸载、查询等接口。
器查看GPU使用率。 本节操作介绍了两种查看GPU使用率的方法,方法一是在cmd窗口执行命令查看GPU使用率,方法二是通过安装gpu-Z工具查看GPU使用率。 前提条件 GPU加速型云服务器已安装NVIDIA驱动。 方法一 登录GPU加速型云服务器。 打开cmd命令窗口。 执行如下命令,查看GPU使用情况。
置备份任务执行的时间、周期以及备份数据的保留规则,将备份存储库绑定到备份策略,可以为存储库执行自动备份。 复制策略:需要对备份或存储库执行自动复制操作时,可以设置复制策略。通过在策略中设置复制任务执行的时间、周期以及备份数据的保留规则,将备份存储库绑定到复制策略,可以为存储库执行
可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。 处理方法 用户停止业务并执行业务迁移。 执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法
怎样配置Linux分析工具:atop和kdump 操作场景 本节操作介绍atop和kdump的配置方法。 不同的Linux版本使用的atop工具版本不同,因此配置方法稍微有所不同。 配置atop: atop简介 atop安装前准备 CentOS 7/8、AlmaLinux、 Rocky