检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图2 TCP端口检查 执行命令检查 命令检查是一种强大的检查方式,该方式要求用户指定一个容器内的可执行命令,集群会周期性地在容器内执行该命令,如果命令的返回结果是0则检查成功,否则检查失败。
图2 TCP 端口检查 执行命令检查 命令检查是一种强大的检查方式,该方式要求用户指定一个容器内的可执行命令,集群会周期性地在容器内执行该命令,如果命令的返回结果是0则检查成功,否则检查失败。
检查类型 检查名 检查内容 检查通过标准 集群检查 节点架构检查 所有安装的Master节点架构检查 所有安装节点架构必须一致 节点主机名检查 所有安装的Master节点主机名检查 所有安装节点主机名必须不同 节点时钟同步检查 所有安装的Master节点时钟同步状态检查 所有安装节点主机时间差异必须小于
网格使用时无法创建代理,istio组件调度失败,一直处于pending状态 解决方案 请检查节点的istiod的标签(istio=master)是否存在。 如果不存在请将istiod的标签istio=master加上。
集群联邦升级前检查不通过怎么办? 问题背景 升级集群联邦前,UCS会对联邦运行状态、集群运行状态、集群接入状态三方面进行检查,尽可能避免升级失败。如有检查异常项,请先参考本章节内容排查与修复问题。问题修复后,可以尝试再次升级集群联邦。
表1 基础软件规划 系统架构 系统类型 网络模型 操作系统版本 内核版本限制 x86 Ubuntu 22.04 Cilium 检查命令:cat /etc/lsb-release DISTRIB_DESCRIPTION="Ubuntu 22.04.1 LTS" 检查命令:uname
服务健康 服务健康是通过对实际的访问情况进行统计来找出不健康的实例,属于被动型的健康检查。健康检查通过的实例,才会向服务端注册。 网格须开通AOM服务,否则无法查看服务健康。 操作步骤 登录UCS控制台,在左侧导航栏中单击“服务网格”。 单击服务网格名称,进入详情页。
150% 节点CPU的Limit检查是否超过150% 节点资源水位诊断 节点24小时内CPU使用率最大值是否超过80% 节点24小时内内存使用率最大值是否超过80% 节点磁盘使用率是否超过80% 节点PID使用量是否正常 节点24小时内是否发生OOM事件 负载 Pod状态 Pod状态检查
kubectl describe mci {MCIname} 若出现如下报错信息,请检查ELB实例的监听器端口是否已被占用。 若出现如下报错信息,请检查MCI中的服务名称是否存在。 若出现如下报错信息,请检查MCI中配置的服务端口是否正确。 父主题: 集群联邦
根据失败情况请使用以下方案排查修复: 检查gatekeeper-system命名空间中gatekeeper-controller-manager、gatekeeper-audit这两个Deployment是否为就绪状态,如果不是,请自行排查未就绪原因。
如需采集则需要在启动参数中修改采集配置,并同时检查名称为kube-state-metrics的ServiceMonitor中采集白名单是否添加相应指标。 操作步骤 执行以下命令打开kube-state-metrics工作负载对应的YAML文件。
策略中心启用失败时,根据失败情况请使用以下方案排查修复: 如果提示“wait for plugins status become health time out”,请检查集群状态是否正常,集群资源是否足够。检查无误后单击“重新启用”。
集群开启监控请求下发成功,但是监控状态一直显示“安装中”,超时后显示“安装失败”,前往集群中检查插件的Pod状态,Pod的事件中含有gatekeeper字段。 原因分析 如果开启监控的集群在策略中心配置了拦截级别的策略规则,则可能导致开启监控失败。
请参考表1检查集群网络情况。若集群或容器间网络还未打通,请参考表中设置方法对集群网络进行配置。若按照方法进行设置后仍无法打通网络,请参考常见问题进行问题排查。
更新流量策略 YAML更新流量策略 以检查4分钟内forecast服务实例的访问异常情况为例,连续出现5次访问异常的实例将被隔离10分钟,被隔离的实例不超过30%,在第1次隔离期满后,异常实例将重新接收流量,如果仍然不能正常工作,则会被重新隔离,第2次将被隔离20分钟,以此类推。
图2 升级联邦版本 在弹出的升级告知中查看能够升级到的版本,并单击“下一步”进行升级前检查。 若通过检查,则单击“开始升级”进行升级,升级过程大约需要2分钟。 若未通过检查,请单击“排查原因”,参考文档进行错误修复。
应对建议 检查目标服务的负载配置,确认服务的实例均正常运行。 DC(下游连接终止) 含义 DC(DownstreamConnectionTermination)表示下游连接终止。
说明: 默认使用后端服务器默认业务端口进行健康检查。指定特定端口后,使用指定的端口进行健康检查。 delay 否 Int 健康检查的延迟时间,以秒为单位,1-50,默认值是5秒。 timeout 否 Int 健康检查的超时时间,以秒为单位,1-50,默认值是10秒。
健康检查:默认不启用。此处健康检查是设置负载均衡的健康检查配置,支持TCP和HTTP协议,其参数详细解释参见表1。 表1 健康检查参数说明 参数 说明 示例 检查路径 当“协议”为HTTP时设置。指定健康检查的URL地址的路径。检查路径只能以/开头,长度范围[1-80]。
根据安装本地集群确保待执行机检查项已满足。 准备一台执行机,要求与集群网络连通。 注册集群 登录UCS控制台,在左侧导航栏中选择“容器舰队”。 单击本地集群选项卡中的“注册集群”按钮。 参考表1填写待添加集群的基础信息,其中带“*”的参数为必填参数。