检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可对集群健康状况进行全面检查,帮助您及时发现集群故障与潜在风险,并给出应对的修复建议供您参考。
CCE容器网络扩展指标 插件介绍 CCE容器网络扩展指标插件(dolphin)是一款容器网络流量监控管理插件,支持CCE Turbo集群非主机网络容器的流量统计,以及节点内容器连通性健康检查。
10248 –healthz-port:健康检查服务的端口。 10255 –read-only-port:只读端口,用于对外提供监控指标。 父主题: 节点运行
容器异常退出状态码 当容器启动失败或终止时,K8s事件中将会打印容器异常退出状态码(Exit Code)来报告容器异常的原因。本文将介绍如何通过事件中打印的Exit Code进一步定位容器异常的根本原因。
service-node-port-range 20106-32767 30000-32767 允许 CCE Standard/CCE Turbo 此配置是Nodeport类型的service可分配端口范围 配置建议: 30000-32767 端口号小于20106会和CCE组件的健康检查端口冲突
periodSeconds: 5 #选填,健康检查任务检查间隔时间,单位秒,默认60 command: "" #选填,健康检查任务检查命令,支持:ping、arping、curl,默认 ping ipFamilies
漏洞详情 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 权限提升 CVE-2024-41110 严重 2024-07-25 漏洞影响 受影响版本中,攻击者可以使用Content-Length设置为0的API请求绕过权限检查,导致Docker守护进程将没有正文的请求转发到
表3 健康检查注解 参数 类型 描述 支持的集群版本 kubernetes.io/elb.health-check-flag String 是否开启ELB健康检查功能。
表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 容器逃逸 CVE-2022-0492 高 2021-02-07 漏洞影响 该漏洞为Linux内核权限校验漏洞,根因为没有针对性的检查设置release_agent文件的进程是否具有正确的权限。
", "code": 403} 问题根因 事件信息表示账号被停用或没有权限,请检查账号状态是否正常。 如账号正常请查看该用户的命名空间权限,您需要拥有该命名空间的开发权限、运维权限或管理员权限之一,或者包含PVC/PV读写操作的自定义权限。详情请参见配置命名空间权限(控制台)。
Everest每分钟会扫描空闲磁盘,并检查已添加进存储池的磁盘是否正常。
nodePort 20106 - 32767 30000-32767之间 允许 CCE Standard/CCE Turbo 配置建议: 此配置由集群的service-node-port-range配置项确定范围,建议配置在30000-32767之间 端口号小于20106会和CCE组件的健康检查端口冲突
排查项八:检查节点thinpool空间是否充足 0/1 nodes are available: 1 Too many pods. 该节点调度的Pod超出上限。 检查项九:检查节点上调度的Pod是否过多 排查项一:集群内是否无可用节点 登录CCE控制台,检查节点状态是否为可用。
定时任务在运行过程中,如果被暂停,再次被开启时,控制器会检查上一次调度的时间点到现在所错过了调度次数。如果错过的调度次数超过100次, 那么它就不会启动这个任务并记录这个错误,详情请参考CronJob限制。
处理建议: 排查项六:检查磁盘是否异常 排查项九:检查节点中的vdb盘是否被删除 DiskProblem 检查磁盘使用量与关键逻辑磁盘挂载 检查系统盘、docker盘、kubelet盘磁盘使用率,检查docker盘、kubelet盘是否正常挂载在虚拟机上。
问题检测 CCE节点故障检测插件(npd)中已包含节点时间同步检查项,您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。 问题根因 EulerOS和CentOS类型的节点存在由NTP引起的已知问题,其他类型的节点不涉及该问题。
原因排查: 检查如下问题并修复: 租户是否欠费。 查看节点池配置的规格是否资源不足。 租户的ECS或内存配额是否不足。 如果一次创建节点太多,可能会出现租户的ECS容量校验不过的情况发生。 解决方案: 若租户已经欠费,请尽快续费。 若ECS节点资源不足,使用其他规格节点替代。
问题解答: 创建ELB时候,如果ELB健康检查失败,后端服务器组会删除,而且后续服务正常以后也不会添加。如果是更新已有的SVC时则不会删除。
它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。node-problem-detector可以作为DaemonSet运行, 也可以独立运行。
四层ELB的健康检查是否开启(未开启的话,请开启)。 七层ELB的访问方式中使用的证书是否过期。 常见问题: 发布四层ELB时,如果客户在界面未开启健康检查,ELB可能会将流量转发到异常的节点。 UDP协议的访问,需要放通节点的ICMP协议。