检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
容器安全插件 CCE密钥管理(对接 DEW) 容器镜像签名验证 父主题: 插件
节点Kubelet检查异常处理 检查项内容 检查节点kubelet服务是否运行正常。 解决方案 问题场景一:kubelet状态异常 kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测
节点Ready检查异常处理 检查项内容 检查集群内节点是否Ready。 解决方案 问题场景一:节点状态显示不可用 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”,筛选出状态不可用的节点后,请参照控制台提供的“修复建议”修复该节点后重试检查。 问题场景二:节点状态与实际不符
节点journald检查异常处理 检查项内容 检查节点上的journald状态是否正常。 解决方案 请登录该节点,执行systemctl is-active systemd-journald命令查询journald服务运行状态。若回显状态异常,请执行systemctl restart
是否被用户挂载。 低于v1.23.16-r0、v1.25.11-r0、v1.27.8-r0、1.28.6-r0、v1.29.2-r0版本的集群:CCE默认创建链接/var/lib/kubelet -> /mnt/paas/kubernetes/kubelet,检查是否被用户修改。
检查集群升级时,OpenKruise插件是否存在兼容性问题。 解决方案 Kubernetes社区在1.24版本移除了对dockershim的支持。CCE为兼顾用户使用docker运行时的习惯,在CCE的v1.25及以上的集群版本引入了cri-dockerd用于替换原来的dockershim,但是Op
节点池视图 从节点池视角呈现节点池资源的占用和分配情况,帮助您详细了解节点池的负载状态。 指标说明 节点池视图暴露的指标如下: 图1 节点池资源指标 表1 视图说明 图表名称 单位 说明 节点池CPU分配率 百分比 节点池里的所有节点的Pod CPU Request总量占所有节点CPU总量的比例
使用仪表盘 仪表盘集合了不同视角、不同组件的高频监控指标。将不同的指标以图表的形式直观、综合性地汇集在同一个屏幕上,帮助您实时全面地掌握集群整体运行状况。 仪表盘提供了丰富的视图监控指标呈现,包括集群视图、APIServer视图、Pod视图、主机视图、Node视图等等。 前提条件
17正式废弃 events.k8s.io/v1beta1 Event API中series.state字段废弃,将在1.18版本中移除 参考链接 社区v1.13与v1.15版本之间的CHANGELOG v1.14到v1.15的变化: https://github.com/kuber
19 v1.21 v1.23 v1.25 支持插件规格与集群规格联动 2.1.30 v1.19 v1.21 v1.23 v1.25 支持插件实例AZ反亲和配置 obsfs包适配Ubuntu 22.04 2.1.13 v1.19 v1.21 v1.23 v1.25 SFS Turbo存储卷subpath
但是您仍旧可以利用历史数据老化机制将您的本地数据平滑过渡到AOM,具体步骤如下: 您可以先迁移至基于本地存储的传统模式,并对接AOM普罗实例,作为平滑迁移的过渡。 历史数据您可以直接查询集群内的Prometheus,而新增数据不仅存在于集群内的Prometheus,也会同时存在于AOM中。
OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置(需要使用OBS Browser工具)。 例如:桶内文件路径/文件名,文件下载地址可至github中指定项目的指定路径下查找,示例如1、2所示。 models/bvlc_reference_caffenet/bvlc_reference_caffenet
节点池检查异常处理 检查项内容 检查节点池状态是否正常。 检查升级后节点池操作系统或容器运行时是否支持。 解决方案 问题场景:节点池状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面查看问题节点池状态。若该节点池状态处于伸缩中,请等待节点池伸缩完毕。 图1
Prometheus Agent视图 Prometheus Agent是轻量化的容器监控模式,可以收集有关主机和应用程序的指标数据,并将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。
节点系统参数检查异常处理 检查项内容 检查您节点上默认系统参数是否被修改。 解决方案 如您的bms节点上bond0网络的mtu值非默认值1500,将出现该检查异常。 非默认参数可能导致业务丢包,请改回默认值。 父主题: 升级前检查异常问题排查
残留packageversion检查异常处理 检查项内容 检查当前集群中是否存在残留的packageversion。 解决方案 检查提示您的集群中存在残留的CRD资源10.12.1.109,该问题一般由于CCE早期版本节点删除后,对应的CRD资源未被清除导致。 您可以尝试手动执行以下步骤:
配置项与密钥 创建配置项 使用配置项 创建密钥 使用密钥 集群系统密钥说明
云原生成本治理 云原生成本治理概述 云原生成本治理委托权限说明 成本洞察
健康中心 健康中心概述 集群诊断 工作负载诊断 诊断项及修复方案 父主题: 云原生观测
增强型CPU管理策略检查异常处理 检查项内容 检查当前集群版本和要升级的目标版本是否支持增强型CPU管理策略。 解决方案 问题场景:当前集群版本使用增强型CPU管理策略功能,要升级的目标集群版本不支持增强型CPU管理策略功能。 升级到支持增强型CPU管理策略的集群版本,支持增强型CPU管理策略的集群版本如下表所示: