检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU/NPU Pod重建风险检查异常处理 检查项内容 检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。 解决方案 请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响; 如需帮助,请您提交工单联系运维人员获取支持。
servicemonitor kube-state-metrics -nmonitoring 修改kube-state-metrics负载的启动命令中的指标暴露部分,添加需要的指标,并以英文逗号分隔。 kubectl edit deploy kube-state-metrics -nmonitoring
imageGCLowThresholdPercent两个配置参数定期回收未在使用中的镜像。如果在节点上使用docker或crictl命令行启动容器,那么在容器停止后,它将处于退出状态,但并未完全删除,这意味着该容器仍然引用着容器镜像。由于kubelet无法感知到非Pod产生的容器
放通5443端口。5443端口默认对所有网段放通,如果您对安全组做过加固,当出现在CloudShell中无法访问集群时,请检查5443端口是否放通了198.19.0.0/16网段。 当前仅北京一、北京四、上海一、上海二、广州、贵阳一和乌兰察布一支持使用CloudShell登录容器。
容器场景下Pod支持极速弹性,而网卡创建绑定需要一定时间,影响了大规模批创场景下的容器启动速度。系统默认提供了容器网卡动态预热的能力,在尽可能提高IP的资源利用率的前提下,加快Pod的启动速度。集群预热配置为您的集群设置全局的预热策略,集群节点默认会根据集群预热配置选项进行容器
节点NetworkManager检查异常处理 检查项内容 检查节点上的NetworkManager状态是否正常。 解决方案 请登录该节点,执行systemctl is-active NetworkManager命令查询NetworkManager服务运行状态。若回显状态异常,请执行systemctl
com/prometheus-community/helm-charts/tree/main/charts/kube-prometheus-stack/charts/crds/crds。 部署示例应用如下: apiVersion: apps/v1 kind: Deployment metadata: name:
升级前查看节点上docker配置文件/etc/docker/daemon.json。检查dm.fs配置项是否为xfs。 若为ext4或存储驱动为overlay则不涉及。 若为xfs则建议您在新版本集群预先部署应用,以测试应用与新版本集群是否兼容。 { "storage-driver": "devicemapper"
”等,会导致容器异常。建议挂载在空目录下,若目录不为空,请确保目录下无影响容器启动的文件,否则文件会被替换,导致容器启动异常,工作负载创建失败。 须知: 挂载高危目录的情况下 ,建议使用低权限账号启动,否则可能会造成宿主机高危文件被破坏。 子路径 请输入存储卷的子路径,将存储卷中
据仅来源于已经达到就绪状态并完成了最近一次指标采集的Pods。它的目的是在Pod启动初期过滤掉不稳定的CPU使用数据,进而防止基于瞬时峰值做出错误的扩缩容决策。 配置建议:如果您观察到Pods在启动阶段的CPU使用率波动导致HPA做出错误的扩展决策,增大此值可以提供一个CPU使用率稳定化的缓冲期。
节点命令行检查异常处理 检查项内容 检查节点中是否存在升级所必须的命令。 解决方案 该问题一般由于节点上缺少集群升级流程中使用到的关键命令,可能会导致集群升级失败。 报错信息如下: __error_code#ErrorCommandNotExist#chage command is
在Kubernetes1.29版本中,kube-apiserver新增启动参数--authentication-config,用于指定AuthenticationConfiguration文件地址,该启动参数与--oidc-*启动参数互斥。 在Kubernetes1.29版本中,移除了Ku
排查项一:节点负载过高 排查项二:弹性云服务器是否删除或故障 排查项三:弹性云服务器能否登录 排查项四:安全组是否被修改 排查项五:检查安全组规则中是否包含Master和Node互通的安全组策略 排查项六:检查磁盘是否异常 排查项七:内部组件是否正常 排查项八:DNS地址配置错误 排查项九:检查节点中的vdb盘是否被删除
节点OS为Ubuntu 18.04时出现日志无法采集 排查方法:重启当前节点的fluent-bit pod,查看日志是否正常采集。如依然无法采集,请确认需要采集的文件是否为打包镜像时已经存在于镜像中的日志文件。对于容器日志采集的场景来说,镜像打包时已存在的文件的日志非运行日志,属于无
节点上CCE Agent版本检查异常处理 检查项内容 检测当前节点的CCE包管理组件cce-agent是否为最新版本。 解决方案 问题场景一: 错误信息为“you cce-agent no update, please restart it”。 该问题是由于cce-agent没有
默认为 {} enable_node_attacher 否 bool 是否启动 agent attacher 默认为false multiAZEnabled 否 bool 插件中deployment组件多可用部署是否采用强制模式,默认:false。强制模式下插件Deployment实
gress插件的状态是正常的。 检查Ingress配置是否正确。 如果以上排查结果都正常,说明可能是Ingress的配置出现问题。 检查对接ELB参数是否填写正确。 检查Service参数是否填写正确。 检查转发配置的参数是否填写正确。 检查证书问题。 如果Ingress开启了H
用户节点组件健康检查异常处理 检查项内容 检查用户节点的容器运行时组件和网络组件等是否健康。 解决方案 问题场景一:CNI Agent is not active 如果您的集群版本在1.17.17以下,或者1.17.17以上且是隧道网络,请登录该节点,执行systemctl status
节点关键目录文件权限检查异常处理 检查项内容 检查CCE使用的目录/var/paas内文件的属主和属组是否都为paas。 解决方案 问题场景一: 错误信息为“xx file permission has been changed!”。 解决方案: CCE使用/var/paas目录
集群与节点池配置管理检查 检查项内容 检查当前集群中网络组件配置(eni)中节点预热容器网卡回收阈值(nic-max-above-warm-target)是否超过允许设置的最大值。 解决方案 根据错误信息确认受影响的范围,例如: configuration check failed: [nodepool