云容器引擎 CCE-CCE节点故障检测:Node-problem-controller故障隔离

时间:2024-05-31 08:37:35

Node-problem-controller故障隔离

故障隔离仅1.16.0及以上版本的插件支持。

默认情况下,若多个节点发生故障,NPC至多为10%的节点添加污点,可通过参数npc. maxTaintedNode提高数量限制。

开源NPD插件提供了故障探测能力,但未提供基础故障隔离能力。对此,CCE在开源NPD的基础上,增强了Node-problem-controller(节点故障控制器组件,简称NPC),该组件参照Kubernetes节点控制器实现,针对NPD探测上报的故障,自动为节点添加污点以进行基本的节点故障隔离。

表11 参数说明

参数

说明

默认值

npc.enable

是否启用npc

1.18.0及以上版本不再支持该参数

true

npc.maxTaintedNode

单个故障在多个节点间发生时,至多多少节点允许被npc添加污点,避免雪崩效应

支持int格式和百分比格式

10%

值域:

  • int格式,数值范围为1到无穷大
  • 百分比格式,数值范围为1%到100%,与集群节点数量乘积计算后最小值为1。

npc.nodeAffinity

Controller的节点亲和性配置

N/A

support.huaweicloud.com/usermanual-cce/cce_10_0132.html