检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
现健康检查协议等。 图4 GRPC检查 公共参数说明 表1 公共参数说明 参数 参数说明 检测周期(periodSeconds) 探针检测周期,单位为秒。 例如,设置为30,表示每30秒检测一次。 延迟时间(initialDelaySeconds) 延迟检查时间,单位为秒,此设置与业务程序正常启动时间相关。
例外场景:NPD无法检测所有PV(数据盘)丢失,导致VG(存储池)丢失的场景;此时依赖kubelet自动隔离该节点,其检测到VG(存储池)丢失并更新nodestatus.allocatable中对应资源为0,避免依赖存储池的Pod调度到该节点上。无法检测单个PV损坏;此时依赖R
CCE节点故障检测 插件介绍 CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。n
配置节点故障检测策略 节点故障检查功能依赖node-problem-detector(简称:npd),npd是一款集群节点监控插件,插件实例会运行在每个节点上。本文介绍如何开启节点故障检测能力。 前提条件 集群中已安装CCE节点故障检测插件。 开启节点故障检测 登录CCE控制台,单击集群名称进入集群。
CCE节点故障检测插件版本发布记录 表1 CCE节点故障检测插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 1.19.11 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复部分问题 0.8.10 1.19.8 v1.21 v1.23
常工作,但是JVM进程却是一直运行的,对于这种应用本身业务出了问题的情况,Kubernetes提供了Liveness Probe机制,通过检测容器响应是否正常来决定是否重启,这是一种很好的健康检查机制。 毫无疑问,每个Pod最好都定义Liveness Probe,否则Kubernetes无法感知Pod是否正常运行。
用”时,请参照如下方式来排查解决。 节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性,并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。 使用NPD插件排查故障 CCE提供节点故障检测NPD插件,NPD插件从1.16.0版本开始增加
目标K8s版本已废弃的API。 由于审计日志的时间范围有限,该检查项仅作为辅助手段,集群中可能已使用即将废弃的API,但未在过去一天的审计日志中体现,请您充分排查。 解决方案 检查说明 根据检查结果,检测到您的集群通过kubectl或其他应用调用了升级目标集群版本已废弃的API,
节点上的ntpd在长时间无法连接ntpserver等特殊场景下,可能导致偏移量过大,无法自动恢复。 问题检测 CCE节点故障检测插件(npd)中已包含节点时间同步检查项,您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。 问题根因 EulerOS和CentOS类型的节点存在由NTP引起的已知问题,其他类型的节点不涉及该问题。
登录到CCE集群的ECS节点,查询存在大量npd进程。 解决方案 升级CCE节点故障检测(简称NPD)插件至最新版本。 登录CCE控制台,进入集群,在左侧导航栏中选择“插件中心”,单击CCE节点故障检测下的“升级”。 如果CCE节点故障检测插件版本已经为1.13.6及以上版本,则不需要进行升级操作。
大型企业客户需要将业务同时部署在不同地域的云机房中,并能根据业务的波峰波谷进行自动弹性扩容和缩容,以节约成本。 业务上云、数据本地托管 对于金融、医疗等行业用户,由于安全合规要求,敏感数据要求存储在本地IDC中,而一般业务由于高并发、快响应等方面的特点需要部署在云上,并需要进行统一管理。 开发与部署分离 出于I
表1 受限的everest插件版本 插件名称 涉及版本 everest v1.0.2-v1.0.7 v1.1.1-v1.1.5 解决方案 检测到当前everest版本存在兼容性限制,无法随集群升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查
检查连接跟踪表是否满 FrequentKubeletRestart 检测kubelet频繁重启 FrequentDockerRestart 检测docker频繁重启 FrequentContainerdRestart 检测containerd频繁重启 CRIProblem 检查容器CRI组件状态
node-local-dns:表示安装节点本地域名解析加速插件。 volcano:表示安装Volcano调度器插件。 npd:表示安装CCE节点故障检测插件。 cie-collector:表示安装云原生监控插件。 log-agent:表示安装云原生日志采集插件。 virtual-kubelet:表示安装CCE突发弹性引擎(对接
加密云硬盘存储卷 云盘加密功能适用于需要高安全性或合规性要求的应用场景,可以保护数据的隐私性和自主性。本文将为您介绍如何使用数据加密服务(DEW)中管理的密钥对云盘存储卷数据进行加密。 前提条件 您已经创建好一个集群,并且在该集群中安装CCE容器存储(Everest)。 已在数据
cce-hpa-controller插件限制检查异常处理 检查项内容 检查cce-controller-hpa插件的目标版本是否存在兼容性限制。 解决方案 检测到目标cce-controller-hpa插件版本存在兼容性限制,需要集群安装能提供metrics api的插件,例如metrics-server;
网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮书》详细介绍华为云安全性的构建思路与措施,包括云安全战略、责任共担模型、合规与隐私、安全组织与人员、基础设施安全、租户服务与租户安全、工程安全、运维运营安全、生态安全。 图1 CCE服务安全责任共担模型 父主题: 安全
健康检查探针(Liveness、Readiness)偶现检查失败? 健康检查探针偶现检测失败,是由于容器内的业务故障所导致,您需要优先定位自身业务问题。 常见情况有: 业务处理时间长,导致返回超时。 tomcat建链和等待耗费时间太长(连接数、线程数等),导致返回超时。 容器所在
节点CCE Agent版本检查异常处理 检查项内容 检测当前节点的CCE包管理组件cce-agent是否为最新版本。 解决方案 问题场景一: 错误信息为“you cce-agent no update, please restart it”。 该问题为cce-agent无需更新,
kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测到当前kubelet依赖的pause容器镜像版本非cce-pause:3.1,继续升级将会导致批量Pod重启,当前暂不支持升级,请联系技术支持人员。