搜索_华为云

配置节点故障检测策略 - 云容器引擎 CCE

配置节点故障检测策略节点故障检查功能依赖node-problem-detector（简称：npd），npd是一款集群节点监控插件，插件实例会运行在每个节点上。本文介绍如何开启节点故障检测能力。前提条件集群中已安装CCE节点故障检测插件。开启节点故障检测登录CCE控制台，单击集群名称进入集群。

帮助中心 > 云容器引擎 CCE > 用户指南 > 节点 > 节点运维
设置容器健康检查 - 云容器引擎 CCE

现健康检查协议等。图4 GRPC检查公共参数说明表1 公共参数说明参数参数说明检测周期（periodSeconds）探针检测周期，单位为秒。例如，设置为30，表示每30秒检测一次。延迟时间（initialDelaySeconds）延迟检查时间，单位为秒，此设置与业务程序正常启动时间相关。

帮助中心 > 云容器引擎 CCE > 用户指南 > 工作负载 > 配置工作负载
CCE节点故障检测 - 云容器引擎 CCE

例外场景：NPD无法检测所有PV（数据盘）丢失，导致VG（存储池）丢失的场景；此时依赖kubelet自动隔离该节点，其检测到VG（存储池）丢失并更新nodestatus.allocatable中对应资源为0，避免依赖存储池的Pod调度到该节点上。无法检测单个PV损坏；此时依赖R

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生可观测性插件
CCE节点故障检测 - 云容器引擎 CCE

CCE节点故障检测插件介绍 CCE节点故障检测插件（node-problem-detector，简称NPD）是一款监控集群节点异常事件的插件，以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序，可从不同的守护进程中搜集节点问题并将其报告给apiserver。n

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
CCE节点故障检测插件版本发布记录 - 云容器引擎 CCE

CCE节点故障检测插件版本发布记录表1 CCE节点故障检测插件版本记录插件版本支持的集群版本更新特性社区版本 1.19.11 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复部分问题 0.8.10 1.19.8 v1.21 v1.23

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
出口网络带宽保障 - 云容器引擎 CCE

有如下优点：平衡在线业务与离线业务对出口网络带宽的使用，保证在线业务有足够的网络带宽，在线业务触发阈值时，压缩离线业务带宽使用。在线业务所占用的网络资源较少时，离线业务可使用更多带宽；在线业务所占用的网络资源较多时，降低离线业务资源占用量，从而优先保障在线业务的网络带宽。约束与限制

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > 云原生混部
存活探针（Liveness Probe） - 云容器引擎 CCE

常工作，但是JVM进程却是一直运行的，对于这种应用本身业务出了问题的情况，Kubernetes提供了Liveness Probe机制，通过检测容器响应是否正常来决定是否重启，这是一种很好的健康检查机制。毫无疑问，每个Pod最好都定义Liveness Probe，否则Kubernetes无法感知Pod是否正常运行。

帮助中心 > 云容器引擎 CCE > Kubernetes基础知识 > Pod、Label和Namespace
动态资源超卖 - 云容器引擎 CCE

节点，离线作业优先调度到超卖节点。在线作业预选超卖节点时只能使用其非超卖资源在线作业只能使用超卖节点的非超卖资源，离线作业可以使用超卖节点的超卖及非超卖资源。同一调度周期在线作业先于离线作业调度在线作业和离线作业同时存在时，优先调度在线作业。当节点资源使用率超过设定的驱逐

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > 云原生混部
集群可用但节点状态为“不可用”如何解决？ - 云容器引擎 CCE

用”时，请参照如下方式来排查解决。节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性，并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。使用NPD插件排查故障 CCE提供节点故障检测NPD插件，NPD插件从1.16.0版本开始增加

 帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
CCE节点NTP时间不同步如何解决？ - 云容器引擎 CCE

节点上的ntpd在长时间无法连接ntpserver等特殊场景下，可能导致偏移量过大，无法自动恢复。问题检测 CCE节点故障检测插件（npd）中已包含节点时间同步检查项，您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。问题根因 EulerOS和CentOS类型的节点存在由NTP引起的已知问题，其他类型的节点不涉及该问题。

帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
NPD插件版本过低导致进程资源残留问题 - 云容器引擎 CCE

登录到CCE集群的ECS节点，查询存在大量npd进程。解决方案升级CCE节点故障检测（简称NPD）插件至最新版本。登录CCE控制台，进入集群，在左侧导航栏中选择“插件中心”，单击CCE节点故障检测下的“升级”。如果CCE节点故障检测插件版本已经为1.13.6及以上版本，则不需要进行升级操作。

帮助中心 > 云容器引擎 CCE > 常见问题 > 模板插件
CCE是否支持账户余额变动提醒？ - 云容器引擎 CCE

CCE是否支持账户余额变动提醒？系统会以邮件、短信形式给客户发送账户余额变动通知，包括账户余额调整、充值到账、客户在线充值等。父主题：计费类

 帮助中心 > 云容器引擎 CCE > 常见问题 > 计费类
节点异常问题排查 - 云容器引擎 CCE

检查连接跟踪表是否满 FrequentKubeletRestart 检测kubelet频繁重启 FrequentDockerRestart 检测docker频繁重启 FrequentContainerdRestart 检测containerd频繁重启 CRIProblem 检查容器CRI组件状态

 帮助中心 > 云容器引擎 CCE > 常见问题 > 节点
everest插件版本限制检查异常处理 - 云容器引擎 CCE

表1 受限的everest插件版本插件名称涉及版本 everest v1.0.2-v1.0.7 v1.1.1-v1.1.5 解决方案检测到当前everest版本存在兼容性限制，无法随集群升级，请联系技术支持人员。父主题：升级前检查异常问题排查

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
调度算法 - 云容器引擎 CCE
调度算法 - 云容器引擎 CCE

特性，实现业务对集群资源的充分利用；从节点维度来看，混部是将多个容器部署在同一个节点上，这些容器内的应用既包括在线类型，也包括离线类型。根据应用对资源质量需求的差异，在线应用可以归纳为延时敏感型LS（Latency Sensitive），通常对请求压力（QPS）或访问延迟（RT）

帮助中心 > 云容器引擎 CCE > 配置参考 > 集群
cce-hpa-controller插件限制检查异常处理 - 云容器引擎 CCE

cce-hpa-controller插件限制检查异常处理检查项内容检查cce-controller-hpa插件的目标版本是否存在兼容性限制。解决方案检测到目标cce-controller-hpa插件版本存在兼容性限制，需要集群安装能提供metrics api的插件，例如metrics-server；

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
健康检查探针（Liveness、Readiness）偶现检查失败? - 云容器引擎 CCE

健康检查探针（Liveness、Readiness）偶现检查失败? 健康检查探针偶现检测失败，是由于容器内的业务故障所导致，您需要优先定位自身业务问题。常见情况有：业务处理时间长，导致返回超时。 tomcat建链和等待耗费时间太长（连接数、线程数等），导致返回超时。容器所在

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 容器设置
节点CCE Agent版本检查异常处理 - 云容器引擎 CCE

节点CCE Agent版本检查异常处理检查项内容检测当前节点的CCE包管理组件cce-agent是否为最新版本。解决方案问题场景一：错误信息为“you cce-agent no update, please restart it”。该问题为cce-agent无需更新，

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
PodTemplate - 云容器引擎 CCE
PodTemplate - 云容器引擎 CCE

annotations["volcano.sh/qos-level"] -7~7间整数无允许 - 小于0代表低优先级任务，即离线作业，大于等于0代表高优先级任务，即在线作业。 Pod的入口带宽参数名取值范围默认值是否允许修改作用范围 annotations["kubernetes.io/ingress-bandwidth"]

帮助中心 > 云容器引擎 CCE > 配置参考 > Pod
节点Kubelet检查异常处理 - 云容器引擎 CCE

kubelet异常时，节点显示不可用，请参考集群可用，但节点状态为“不可用”修复节点后，重试检查任务。问题场景二：cce-pause版本异常检测到当前kubelet依赖的pause容器镜像版本非cce-pause:3.1，继续升级将会导致批量Pod重启，当前暂不支持升级，请联系技术支持人员。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查

总条数： 108

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

配置节点故障检测策略 - 云容器引擎 CCE

设置容器健康检查 - 云容器引擎 CCE

CCE节点故障检测 - 云容器引擎 CCE

CCE节点故障检测 - 云容器引擎 CCE

CCE节点故障检测插件版本发布记录 - 云容器引擎 CCE

出口网络带宽保障 - 云容器引擎 CCE

存活探针（Liveness Probe） - 云容器引擎 CCE

动态资源超卖 - 云容器引擎 CCE

集群可用但节点状态为“不可用”如何解决？ - 云容器引擎 CCE

CCE节点NTP时间不同步如何解决？ - 云容器引擎 CCE

NPD插件版本过低导致进程资源残留问题 - 云容器引擎 CCE

CCE是否支持账户余额变动提醒？ - 云容器引擎 CCE

节点异常问题排查 - 云容器引擎 CCE

everest插件版本限制检查异常处理 - 云容器引擎 CCE

调度算法 - 云容器引擎 CCE

cce-hpa-controller插件限制检查异常处理 - 云容器引擎 CCE

健康检查探针（Liveness、Readiness）偶现检查失败? - 云容器引擎 CCE

节点CCE Agent版本检查异常处理 - 云容器引擎 CCE

PodTemplate - 云容器引擎 CCE

节点Kubelet检查异常处理 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线