检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查项内容 检查当前集群Service是否通过annotation配置了ELB监听器的访问控制。 若有配置访问控制则检查相关配置项是否正确。 解决方案 如果配置项存在错误,请参考为负载均衡类型的Service配置黑名单/白名单访问策略进行重新配置。 父主题: 升级前检查异常问题排查
本文主要介绍在CCE在升级集群时,如何查找插件升级失败的原因,并解决问题。 操作步骤 插件升级失败后,请优先进行重试。若重试不成功,则根据后续步骤排查问题。 在升级界面显示失败后,请退出集群升级页面,前往“插件中心”界面查看插件的详细状态。针对异常的插件,单击插件名称查看详情。 在插件运行实例的详情界面,单击“事件”查看异常实例的信息。
登录ECS控制台,查看节点对应的弹性云服务器是否已绑定弹性IP。 若弹性IP一栏有IP地址,表示已绑定弹性IP。若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP 排查项二:节点是否配置网络ACL 登录VPC控制台,单击左侧导航栏的“访问控制 > 网络ACL”。排查节点所在集群的子网是否配置了网络ACL,并限制了外部访问。
集群开启CPU管理策略(绑核)时,kubelet启动参数中会将CPU Manager的策略设置为static,允许为节点上具有某些资源特征的pod赋予增强的CPU亲和性和独占性。用户如果直接在ECS控制台对CCE节点变更规格,会由于变更前后CPU信息不匹配,导致节点上的负载无法重新拉起,也无法创建新负载。 登录CCE
操作过程中可能存在非预期风险,请提前做好相关的数据备份。 操作方法 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签。 找到目标节点,单击待关机节点的名称。 页面跳转至弹性云服务器详情页中,单击右上角的“关机”,在弹出的关机窗口中单击“确定”,即可完成关机操作。
节点OS检查异常处理 检查项内容 检查节点操作系统内核版本是否为CCE支持的版本。 解决方案 问题场景一:节点镜像非CCE标准镜像 CCE节点运行依赖创建时的初始标准内核版本,CCE基于该内核版本做了全面的兼容性测试,非标准的内核版本可能在节点升级中因兼容性问题导致节点升级失败,详情请参见高危操作及解决方案。
监控CoreDNS运行状态 CoreDNS通过标准的Promethues接口暴露出解析结果等健康指标,发现CoreDNS服务端甚至上游DNS服务器的异常。 CoreDNS自身metrics数据接口,默认zone侦听{$POD_IP}:9153,请保持此默认值,否则普罗无法采集coredns
} else { fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 OK 错误码 请参见错误码。 父主题: 集群管理
} else { fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 OK 错误码 请参见错误码。 父主题: 集群管理
用户节点组件健康检查异常处理 检查项内容 检查用户节点的容器运行时组件和网络组件等是否健康。 解决方案 问题场景一:CNI Agent is not active 如果您的集群版本在1.17.17以下,或者1.17.17以上且是隧道网络,请登录该节点,执行systemctl status
检查当前集群中网络组件配置(eni)中节点预热容器网卡回收阈值(nic-max-above-warm-target)是否超过允许设置的最大值。 解决方案 根据错误信息确认受影响的范围,例如: configuration check failed: [nodepool id(1786cd55-xx
> 默认联系组”页面对确认订阅的终端,执行删除即可。 图1 删除联系组 为什么告警清除之后还会继续发送告警? 告警清除仅清除告警规则页面的统计,如该告警持续达到阈值或者异常事件持续发生,仍会产生告警。 告警中心的联系组支持钉钉、飞书等么? 在告警中心的默认联系组页面无法创建钉钉、飞
华为云支持哪几种开具发票模式? 华为云支持“按账期索取发票”和“按订单索取发票”模式。 您可在费用中心的发票管理开具发票。 父主题: 计费类
检查项内容 检查当前HelmRelease记录中是否含有目标集群版本不支持的K8s废弃API,可能导致升级后helm模板不可用。 解决方案 将HelmRelease记录中K8s废弃API转换为源版本和目标版本均兼容的API。 该检查项解决方案已在升级流程中自动兼容处理,此检查不再限制。您无需关注并处理。
2024-09-26 漏洞影响 在NVIDIA Container Toolkit v1.16.1及更早版本的环境中,攻击者通过运行一个恶意镜像,可能实现容器逃逸,从而获得主机系统的访问权限。成功利用此漏洞可能会导致代码执行、拒绝服务、权限提升、信息泄露和数据篡改。 判断方法 如果集群未安装CCE
登录云容器引擎(CCE)控制台,单击集群名称进入集群,选择左侧导航栏的“日志中心”。 未进行授权的用户需要先授权,已授权的用户可忽略本步骤。 在弹出框中单击“确认授权”。 图1 添加授权 在页面中勾选需要采集的日志类型,单击“开启”,等待约30秒后,页面自动跳转。 图2 开启 采集容器标准输出:您可按需开启,开启
5-r0及以上补丁版本或1.25版本。 请确保云日志服务LTS资源配额充足,LTS的默认配额请参见基础资源。 集群控制面组件说明 当前CCE支持收集以下三种类型的控制面日志,每个日志流对应一个Kubernetes控制层面组件。关于这些组件的更多信息,请参见Kubernetes组件。 表1 集群控制面组件说明
进入节点/opt/cloud/cce/kubernetes/kubelet/pki/目录。 备份节点上的证书文件kubelet-server-current.pem、kubelet-client-current.pem。 删除节点上残留的kubelet-server-*证书文件。 link_target="$(basename
检查项内容 检查到您集群中Master节点实际时区与集群时区不一致,滚动升级后Master节点上的时区会变为集群时区。 如果您集群中存在Cronjob,则可能会导致Cronjob在升级后触发一次非预期的执行。 解决方案 请在升级前关闭Cronjob后再次执行升级前检查,升级完成后开启Cronjob。
您可按需选择每一个系统预置采集任务的指标采集行为进行管理: 若您选择采集全量指标,则会采集该采集任务的所有指标。 若您选择指标采集白名单,则可以按需编辑白名单(基础免费指标无需添加),更加精确的控制自定义采集内容,降低您集群的资源消耗及指标上报成本。 采集任务周期管理 您可以按需对特定的系统采集任务的采集周期进行个性化配置。