检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
适用于节点为按需计费类型,若您的节点为该类型,可从cce-console上查看节点创建时间,2021年2月24日及之后创建的CentOS 7.6节点无该问题。 2、准确排查方法(通用) 您可以执行下述步骤排查节点是否受此问题影响: 以root用户登录CCE集群节点。 执行下述命令排查是否为隐患节点:
Helm模板检查异常处理 检查项内容 检查当前HelmRelease记录中是否含有目标集群版本不支持的K8s废弃API,可能导致升级后helm模板不可用。 解决方案 将HelmRelease记录中K8s废弃API转换为源版本和目标版本均兼容的API。 该检查项解决方案已在升级流程中自动兼容处理,此检查不再限制。您无需关注并处理。
当前检查项包括以下内容: 检查集群关键CRD "packageversions.version.cce.io"是否被删除。 检查集群关键CRD "network-attachment-definitions.k8s.cni.cncf.io"是否被删除。 解决方案 如出现该检查项异常,请联系技术支持人员。
coredns_dns_request_do_count_total counter 设置了DO标志位的请求次数累计值 coredns_dns_do_requests_total counter 设置了DO标志位的请求总数 coredns_dns_request_size_bytes_bucket
通用文件存储(SFS 3.0)在OS中的挂载点修改属组及权限报错 现象描述 将通用文件存储(SFS 3.0)挂载到OS中某个目录后,该目录成为通用文件存储(SFS 3.0)的挂载点,使用chown和chmod命令尝试修改挂载点的属组或权限,会遇到以下报错: chown: changing
节点每秒发送的字节数 网络接收速率(Pod) 字节/秒 节点上的Pod每秒接收的字节数 网络发送速率(Pod) 字节/秒 节点上的Pod每秒发送的字节数 接收数据包速率 个/秒 节点上的Pod每秒接收的数据包个数 发送数据包速率 个/秒 节点上的Pod每秒发送的数据包个数 丢包速率(接收)
编辑、停用、启用、克隆等操作。 查看节点弹性策略 您可以查看节点弹性策略的关联节点池、执行规则和伸缩历史,参照界面中的提示有针对性的解决异常问题。 在CCE控制台,单击集群名称进入集群。 单击左侧导航栏的“节点管理”,单击已创建弹性伸缩策略的节点池名称,查看节点池详情。 在节点池
检查集群管理平面网段是否与主干配置一致 检查项内容 检查集群管理平面网段是否与主干配置一致。 解决方案 该问题由于您的局点做过管理面网段配置修改,导致主干配置中的管理平面网段不一致; 请您提交工单,联系技术支持人员修改配置之后重启检查。 父主题: 升级前检查异常问题排查
节点DNS检查异常处理 检查项内容 当前检查项包括以下内容: 检查当前节点DNS配置是否能正常解析OBS地址 检查当前节点是否能访问存储升级组件包的OBS地址 解决方案 节点升级过程中,需要从OBS拉取升级组件包。此项检查失败,请联系技术人员支持。 父主题: 升级前检查异常问题排查
问题场景:节点池操作系统不支持 由于不同版本之间的运行时和OS存在差异,该异常通常发生在低版本集群升级到1.27及以上集群。当前CCE集群版本和OS的配套关系请参见节点操作系统说明。 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理“页面查看问题节点池,并单击节点池的“更新”。根据升级前
集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测到当前kubelet依赖的pause容器镜像版本非cce-pause:3.1,继续升级将会导致批量Pod重启,当前暂不支持升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查
节点Ready检查异常处理 检查项内容 检查集群内节点是否Ready。 解决方案 问题场景一:节点状态显示不可用 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”,筛选出状态不可用的节点后,请参照控制台提供的“修复建议”修复该节点后重试检查。 问题场景二:节点状态与实际不符
节点journald检查异常处理 检查项内容 检查节点上的journald状态是否正常。 解决方案 请登录该节点,执行systemctl is-active systemd-journald命令查询journald服务运行状态。若回显状态异常,请执行systemctl restart
Agent视图说明 视图指标 单位 描述 CPU使用率 百分比 Prometheus Agent Pod CPU平均使用率 内存使用率 百分比 Prometheus Agent Pod 内存平均使用率 远程写Bps 字节/秒 每秒远程写入的字节数 远程写平均耗时 秒 远程写入平均耗时
挂载文件存储的节点,Pod创建删除卡死 故障现象 在挂载文件存储(SFS或SFS Turbo)的节点上,删除Pod卡在“结束中”,创建Pod卡在“创建中”。 可能原因 后端文件存储被删除,导致无法访问挂载点。 节点与文件存储间网络异常,导致无法访问挂载点。 解决方案 登录挂载文件
Master节点子网配额检查异常处理 检查项内容 检查本次升级集群子网剩余可用IP数量是否支持滚动升级。 解决方案 该问题一般因为您选择的集群子网的IP数量不够,无法支持滚动升级; 请您迁移对应子网中的节点之后重试检查,若您无法确认迁移影响,请您提交工单联系运维人员支撑。 父主题:
检查项内容 检查本次升级的目标版本是否支持Secret落盘加密特性,若不支持则不允许开启Secret落盘加密特性的集群升级至该版本。 解决方案 CCE从v1.27版本开始支持Secret落盘加密特性,开放该特性的版本号如下: v1.27集群:v1.27.10-r0及以上 v1.28集群:v1
ient-go调用创建ingress的api接口时,创建的Ingress中没有property属性。为了与社区的client-go兼容,CCE提供了如下解决方案。 解决方案 在使用client-go创建Ingress实例时,在annotation中做如下声明: kubernetes
节点系统参数检查异常处理 检查项内容 检查您节点上默认系统参数是否被修改。 解决方案 如您的bms节点上bond0网络的mtu值非默认值1500,将出现该检查异常。 非默认参数可能导致业务丢包,请改回默认值。 父主题: 升级前检查异常问题排查
检查当前集群中是否存在残留的packageversion。 解决方案 检查提示您的集群中存在残留的CRD资源10.12.1.109,该问题一般由于CCE早期版本节点删除后,对应的CRD资源未被清除导致。 您可以尝试手动执行以下步骤: 备份残留的CRD资源。10.12.1.109 为示例资源,请根据报错中提示的资源进行替换。