检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图2 TCP 端口检查 执行命令检查 命令检查是一种强大的检查方式,该方式要求用户指定一个容器内的可执行命令,集群会周期性地在容器内执行该命令,如果命令的返回结果是0则检查成功,否则检查失败。
图2 TCP端口检查 执行命令检查 命令检查是一种强大的检查方式,该方式要求用户指定一个容器内的可执行命令,集群会周期性地在容器内执行该命令,如果命令的返回结果是0则检查成功,否则检查失败。
集群联邦升级前检查不通过怎么办? 问题背景 升级集群联邦前,UCS会对联邦运行状态、集群运行状态、集群接入状态三方面进行检查,尽可能避免升级失败。如有检查异常项,请先参考本章节内容排查与修复问题。问题修复后,可以尝试再次升级集群联邦。
检查类型 检查名 检查内容 检查通过标准 集群检查 节点架构检查 所有安装的Master节点架构检查 所有安装节点架构必须一致 节点主机名检查 所有安装的Master节点主机名检查 所有安装节点主机名必须不同 节点时钟同步检查 所有安装的Master节点时钟同步状态检查 所有安装节点主机时间差异必须小于
网格使用时无法创建代理,istio组件调度失败,一直处于pending状态 解决方案 请检查节点的istiod的标签(istio=master)是否存在。 如果不存在请将istiod的标签istio=master加上。
150% 节点CPU的Limit检查是否超过150% 节点资源水位诊断 节点24小时内CPU使用率最大值是否超过80% 节点24小时内内存使用率最大值是否超过80% 节点磁盘使用率是否超过80% 节点PID使用量是否正常 节点24小时内是否发生OOM事件 负载 Pod状态 Pod状态检查
表1 基础软件规划 系统架构 系统类型 网络模型 操作系统版本 内核版本限制 x86 Ubuntu 22.04 Cilium 检查命令:cat /etc/lsb-release DISTRIB_DESCRIPTION="Ubuntu 22.04.1 LTS" 检查命令:uname
kubectl describe mci {MCIname} 若出现如下报错信息,请检查ELB实例的监听器端口是否已被占用。 若出现如下报错信息,请检查MCI中的服务名称是否存在。 若出现如下报错信息,请检查MCI中配置的服务端口是否正确。 父主题: 集群联邦
根据失败情况请使用以下方案排查修复: 检查gatekeeper-system命名空间中gatekeeper-controller-manager、gatekeeper-audit这两个Deployment是否为就绪状态,如果不是,请自行排查未就绪原因。
策略中心启用失败时,根据失败情况请使用以下方案排查修复: 如果提示“wait for plugins status become health time out”,请检查集群状态是否正常,集群资源是否足够。检查无误后单击“重新启用”。
服务健康 服务健康是通过对实际的访问情况进行统计来找出不健康的实例,属于被动型的健康检查。健康检查通过的实例,才会向服务端注册。 网格须开通AOM服务,否则无法查看服务健康。 操作步骤 登录UCS控制台,在左侧导航栏中单击“服务网格”。 单击服务网格名称,进入详情页。
集群开启监控请求下发成功,但是监控状态一直显示“安装中”,超时后显示“安装失败”,前往集群中检查插件的Pod状态,Pod的事件中含有gatekeeper字段。 原因分析 如果开启监控的集群在策略中心配置了拦截级别的策略规则,则可能导致开启监控失败。
应对建议 检查目标服务的负载配置,确认服务的实例均正常运行。 DC(下游连接终止) 含义 DC(DownstreamConnectionTermination)表示下游连接终止。
如需采集则需要在启动参数中修改采集配置,并同时检查名称为kube-state-metrics的ServiceMonitor中采集白名单是否添加相应指标。 操作步骤 执行以下命令打开kube-state-metrics工作负载对应的YAML文件。
图1 状态校验失败 解决方案 如果出现以上问题,请检查报错的VPC中所有的子网下,是否已经存在自行创建的绑定至报错的终端节点服务的VPCEP终端节点,如果有,请至该绑定终端节点服务的VPCEP终端节点的详情页面并给其添加标签"managed-by=service-ucs"。
更新流量策略 YAML更新流量策略 以检查4分钟内forecast服务实例的访问异常情况为例,连续出现5次访问异常的实例将被隔离10分钟,被隔离的实例不超过30%,在第1次隔离期满后,异常实例将重新接收流量,如果仍然不能正常工作,则会被重新隔离,第2次将被隔离20分钟,以此类推。
图2 升级联邦版本 在弹出的升级告知中查看能够升级到的版本,并单击“下一步”进行升级前检查。 若通过检查,则单击“开始升级”进行升级,升级过程大约需要2分钟。 若未通过检查,请单击“排查原因”,参考文档进行错误修复。
请参考表1检查集群网络情况。若集群或容器间网络还未打通,请参考表中设置方法对集群网络进行配置。若按照方法进行设置后仍无法打通网络,请参考常见问题进行问题排查。
根据安装本地集群确保待执行机检查项已满足。 准备一台执行机,要求与集群网络连通。 注册集群 登录UCS控制台,在左侧导航栏中选择“容器舰队”。 单击本地集群选项卡中的“注册集群”按钮。 参考表1填写待添加集群的基础信息,其中带“*”的参数为必填参数。
策略实例分发成功后可在集群中执行符合策略实例的动作,此时该动作可正常执行;若在集群中执行不符合策略实例的动作,该动作将被拒绝掉或者上报告警事件。 修改/删除策略实例 作为平台工程师,您通常需要定期审视和更新策略实例,或者删除一些不再使用的策略实例。