检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置节点故障检测策略 节点故障检查功能依赖node-problem-detector(简称:npd),npd是一款集群节点监控插件,插件实例会运行在每个节点上。本文介绍如何开启节点故障检测能力。 前提条件 集群中已安装CCE节点故障检测插件。 开启节点故障检测 登录CCE控制台,单击集群名称进入集群。
图1 移除节点 您还可以选中多个节点一起移除,如下图所示。 图2 一次移除多个节点 在弹出的“移除节点”对话框中,配置重装操作系统需要的登录信息,单击“是”,等待完成节点移除。 移除节点后,原有节点上的工作负载实例会自动迁移至其他可用节点。 重装操作系统失败如何处理 移除节点重装操作
自定义节点池纳管节点 功能介绍 该API用于在指定集群自定义节点池下纳管节点。竞价实例不支持纳管。 纳管节点支持ECS(弹性云服务器)节点、BMS(裸金属服务器)节点、DeH(专属主机)节点。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。
使用Service的pass-through特性,使用ELB地址访问时绕过kube-proxy,先访问ELB,经过ELB再访问到负载。 在CCE Standard集群中,当使用独享型负载均衡配置pass-through后,从工作负载Pod所在节点或同节点的其他容器中访问ELB的私网IP地址,会出现无法访问的问题。
节点迁移到自定义节点池 功能介绍 该API用于将节点迁移到自定义节点池,仅default节点池下节点支持迁移。迁移过程节点无重置无重启,原节点密码将保留。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 调用方法 请参见如何调用API。
如何配置Pod使用GPU节点的加速能力? 问题描述 我已经购买了GPU节点,但运行速度还是很慢,请问如何配置Pod使用GPU节点的加速能力。 解答 方案1: 建议您将集群中GPU节点的不可调度的污点去掉,以便GPU插件驱动能够正常安装,同时您需要安装高版本的GPU驱动。 如果您的
节点规格说明 您可以通过本节快速浏览CCE支持的节点规格清单及相关特性,帮助您选择合适的机型规格。 节点类型 说明 节点规格 弹性云服务器-虚拟机 使用KVM/擎天虚拟化技术的弹性云服务器类型,针对不同的应用场景,可以选择多种规格类型,提供不同的计算能力和存储能力。 X86机型:
删除节点池 删除节点池,会先删除节点池中的节点,节点删除后,原有节点上的工作负载实例会自动迁移至其他节点池的可用节点。 约束与限制 对于包周期(包年/包月)预付费的节点池不能直接删除,请先移除节点池下全部的节点。 删除节点会导致与节点关联的本地持久存储卷类型的PVC/PV数据丢失
请避免在安装后脚本中直接使用reboot指令。 当前CCE会在执行完节点必备组件的安装之后,再执行安装后脚本。当安装后脚本执行完之后才会将节点状态置为可用状态。如果直接使用reboot命令,可能会导致节点在上报状态之前就被重启,从而造成节点无法在30min内到达运行中状态,触发超时回滚。因此请尽量避免使用reboot指令。
125.0.0/16 独享型ELB 节点安全组,名称规则默认是{集群名}-cce-node-{随机ID} 如果集群中绑定了自定义的节点安全组,请根据实际进行选择。 ICMP的全部端口 ELB后端子网网段 CCE Turbo 共享型ELB 节点安全组,名称规则默认是{集群名}-cce-node-{随机ID}
GPU节点使用nvidia驱动启动容器排查思路 集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。
操作: drain:从节点安全地逐出所有Pod,并将该节点标记为不可调度。 cordon:将节点标记为不可调度,即该节点将会被打上node.kubernetes.io/unschedulable = : NoSchedule的污点。 uncordon:将节点标记为可调度。 更多说明请参考kubectl文档。
当按需节点池中的节点转成包年/包月后,该节点不支持弹性缩容。 按需节点转包年/包月 按需计费节点绑定的资源(云硬盘、弹性公网IP)可能不支持同步变更计费模式,详情请参见弹性云服务器ECS按需转包年/包月说明。 按需节点池中的节点转成包年/包月时,请在节点列表中找到目标节点并单击“
节点网络配置 节点关联自定义安全组 节点池自定义安全组配置。 参数名 取值范围 默认值 是否允许修改 作用范围 customSecurityGroups UUID列表,最大支持配置5个。 禁止重复 NULL 允许 CCE Turbo 配置自定义安全组后,原集群默认节点安全组将不会被配置至新创建节点。
CCE节点NTP时间不同步如何解决? 问题现象 节点上的ntpd在长时间无法连接ntpserver等特殊场景下,可能导致偏移量过大,无法自动恢复。 问题检测 CCE节点故障检测插件(npd)中已包含节点时间同步检查项,您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。
同步方式:当前支持节点重置方式进行同步。 每批最大同步节点数:节点升级时,允许节点不可用的最大数量。节点重置方式进行同步时节点将不可用,请合理设置该参数,尽量避免出现集群节点不可用数量过多导致Pod无法调度的情况。 节点列表:选择需要同步节点池配置的节点。 单击“确定”,即可开始节点池的同步。
Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高 问题现象 Containerd节点上业务容器标准输出不断写入大量日志,导致/var/lib/containerd目录占用空间不断增长,同时节点上容器创删速度变慢,进一步出现磁盘使用率过高、Pod驱逐、节点异常等现象。
详情请参见如何加固CCE集群的自动创建的安全组规则? 节点应按需进行加固 CCE服务的集群节点操作系统配置与开源操作系统默认配置保持一致,用户在节点创建完成后应根据自身安全诉求进行安全加固。 CCE提供以下建议的加固方法: 通过“创建节点”的“安装后执行脚本”功能,在节点创建完成后,执行命令加固节点。具体操作步骤参考
则使用kubectl top node查看节点内存使用率: 节点内存使用率 = 节点已使用量 / 节点可分配 = 2413824Ki / 2213604Ki = 109% 实际节点内存使用率: 实际节点内存利用率 = 节点已使用量 / 节点内存总量 = 2413824Ki / 4030180Ki
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。