检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置节点故障检测策略 节点故障检查功能依赖node-problem-detector(简称:npd),npd是一款集群节点监控插件,插件实例会运行在每个节点上。本文介绍如何开启节点故障检测能力。 前提条件 集群中已安装CCE节点故障检测插件。 开启节点故障检测 登录CCE控制台,单击集群名称进入集群。
开通Region视角的成本洞察 开通单集群视角成本洞察 开通成本洞察需要安装云原生监控插件,插件采集的监控指标将上报至AOM实例,AOM针对基础指标免费,自定义指标由AOM服务收费,具体请参考价格详情。成本洞察能力使用的监控指标均为基础指标。 开通成本洞察会在“华北-北京四”区域创建一个OBS
可观测性最佳实践 云原生监控插件兼容自建Prometheus 使用云原生监控插件监控自定义指标 使用AOM监控自定义指标 使用PrometheusRules配置普罗监控与告警规则 使用Prometheus监控Master节点组件指标 监控NGINX Ingress控制器指标 监控CCE Turbo集群容器网络扩展指标
Ingress控制器插件升级检查异常处理 检查NGINX Ingress控制器插件升级路径是否涉及兼容问题。 56 云原生监控插件升级检查异常处理 在集群升级过程中,云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时,存在兼容性问题,需检查该插件是否开启了grafana的开关。
CCE事件列表 在集群运行过程中,CCE会上报一系列事件至AOM,您可以根据自身需求添加事件类告警,监控集群数据面和控制面组件的健康状态,及时发现和解决问题,保证集群的稳定性和可靠性。 集群数据面事件:集群运行过程中与用户操作相关的事件,包括工作负载、网络、节点、存储、弹性伸缩等事件。
已完成部门配置 约束与限制 由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。 使用成本洞察期间,要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 操作入口 登录CCE控制台,单击左侧导航栏中的“云原生成本治理”。
网络类服务 CCE支持集群下容器发布为对外访问的服务,因此需要获取访问虚拟私有云、弹性负载均衡等服务的权限。 容器与监控类服务 CCE集群下容器支持镜像拉取、监控和日志分析等功能,需要获取访问容器镜像、应用管理等服务的权限。 当您同意授权后,CCE将在IAM中自动创建账号委托,将
CCE支持采集NGINX Ingress日志,并借助LTS日志服务进行多维度分析,并为NGINX日志配置结构化和仪表盘,支持监控中心、访问中心和秒级监控仪表盘,满足不同场景的监控需求。详情请参见NGINX仪表盘模板。 登录CCE控制台,进入一个已有的集群,在左侧导航栏中选择“日志中心”。 选
云服务接口:支持操作云服务层面的基础设施(如创建节点),也可以调用集群层面的资源(如创建工作负载)。 使用云服务接口时,必须配置集群管理(IAM)权限。 集群接口:直接通过Kubernetes原生API Server来调用集群层面的资源(如创建工作负载),但不支持操作云服务层面的基础设施(如创建节点)。
返回控制台的“监测灰度运行状态”页面查看v1和v3版本的实时流量监控情况。 图11 流量监控详情 在“流量监控”页面,您可以查看Bookinfo应用各微服务之间的实时拓扑。ASM提供的流量监控功能,可监控微服务之间的拓扑、会话请求调用链、各环节耗时和RPS、RT等性能状态。 图12 流量监控拓扑 从拓扑图可以看出,r
y的安全配置建议 监控相关 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 使用云原生监控插件监控自定义指标 使用AOM监控自定义指标 使用P
告警中心中的指标类告警规则依赖云原生监控插件上报指标数据到AOM Prometheus实例,需要开通监控中心。当您的集群未安装插件或者在安装插件时未对接AOM Prometheus实例,告警中心将不会创建指标类告警规则。开通监控中心请参考开通监控中心。 表1中使用problem_g
插件简介 云原生监控插件 kube-prometheus-stack通过使用Prometheus-operator和Prometheus,提供简单易用的端到端Kubernetes集群监控能力。 使用kube-prometheus-stack可将监控数据与监控中心对接,在监控中心控制台查看监控数据,配置告警等。
集群kube-prometheus-stack插件状态是否正常 否 云原生监控插件kube-prometheus-stack主要提供了集群运维监控的能力,要体验一站式监控体系,需前往插件市场,安装插件并检查插件状态。详情请参见云原生监控插件。 集群log-agent插件状态是否正常 否 运维插件
在CCE集群中使用工作负载Identity的安全配置建议 工作负载指标监控实践 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 工作负载弹性伸缩实践
管理节点污点 污点(Taint)能够使节点排斥某些特定的Pod,从而避免Pod调度到该节点上。 通过控制台管理节点污点 在CCE控制台上同样可以管理节点的污点,且可以批量操作。 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签
kubelet健康检查端口 10250 TCP kubelet服务端口,提供节点上工作负载的监控信息和容器的访问通道 10255 TCP kubelet只读端口,提供节点上工作负载的监控信息 动态端口(与宿主机限制的范围有关,比如 内核参数 net.ipv4.ip_local_port_range)
27 v1.28 v1.29 支持普通容器Pod粒度的UDP、TCP drop、TCP connect fail监控 支持普通容器flow粒度的UDP、TCP drop监控 支持HCE 2.0 x86和HCE 2.0 ARM 支持CCE v1.29集群 1.3.10 v1.23 v1
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理 父主题: 调度
致节点发生故障的几率的激增。为了应对集群节负载不均衡等问题,动态平衡各个节点之间的资源使用率,需要基于节点的相关监控指标,构建集群资源视图,在集群治理阶段,通过实时监控,在观测到节点资源率较高、节点故障、Pod 数量较多等情况时,可以自动干预,迁移资源使用率高的节点上的一些Pod到利用率低的节点上。