云容器引擎 CCE-集群可用但节点状态为“不可用”如何解决?:排查项一:节点负载过高

时间:2024-05-20 10:01:18

排查项一:节点负载过高

问题描述:

集群中节点连接异常,多个节点报写入错误,业务未受影响。

问题定位:

  1. 登录CCE控制台,进入集群,在不可用节点所在行单击“监控”
  2. 单击“监控”页签顶部的“查看更多”,前往运维管理页面查看历史监控记录。

    当节点cpu和内存负载过高时,会导致节点网络时延过高,或系统OOM,最终展示为不可用。

解决方案:

  1. 建议迁移业务,减少节点中的工作负载数量,并对工作负载设置资源上限,降低节点CPU或内存等资源负载。
  2. 将集群中对应的cce节点进行数据清理。
  3. 限制每个容器的CPU和内存限制配额值。
  4. 对集群进行节点扩容。
  5. 您也可以重启节点,请至E CS 控制台对节点进行重启,重启方法请参见如何重启弹性云服务器?
  6. 增加节点,将高内存使用的业务容器分开部署。
  7. 重置节点,详情请参见重置节点

节点恢复为可用后,工作负载即可恢复正常。

support.huaweicloud.com/cce_faq/cce_faq_00120.html