检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CoreDNS视图 提供了负载域名解析的CoreDNS监控视图,包含请求、响应情况,以及缓存状况。 指标说明 CoreDNS视图暴露的指标如下: 图1 CoreDNS视图指标 表1 CoreDNS指标说明 指标名称 单位 说明 请求速率 个/秒 CoreDNS每秒请求个数 请求速率(记录类型)
按需开启或关闭采集任务,添加基础免费指标外的采集指标等。 您对系统预置采集任务的管理,在插件升级时可以得到继承和保留。与此同时,kube-state-metrics和node-exporter两个工作负载也会升级为由Operator统一管理,您后续对这两个工作负载的个性化配置也会在插件升级时最大程度的得到保留。
小时的监控概览,其中包括CPU使用率、内存使用率和网络流入/流出速率这些常见的监控指标。 图2 资源概况和监控概览 同时,概览页面还提供了Pod使用趋势功能,您可以从中了解工作负载中各Pod的资源使用情况,并且支持查看降序Top5和升序Top5数据。 如需了解更多指标,请前往监控页面查看。
云原生监控 插件介绍 云原生监控插件(kube-prometheus-stack)通过使用Prometheus-operator和Prometheus,提供简单易用的端到端Kubernetes集群监控能力。 使用kube-prometheus-stack可将监控数据与监控中心对接
监控中心 监控中心概述 开通监控中心 管理监控采集任务 集群监控 节点监控 工作负载监控 Pod监控 事件监控 仪表盘 父主题: 云原生观测
Prometheus Agent是轻量化的容器监控模式,可以收集有关主机和应用程序的指标数据,并将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。 指标说明 Prometheus Agent视图暴露的指标如下:
监控运维配置 CCE为您提供监控应用及资源的能力,支持采集各项指标及事件等数据以分析应用健康状态,您可以通过“配置中心 > 监控运维配置”统一调整监控运维参数。 您需要开通监控中心,以使用监控运维配置的所有功能。 监控配置 采集配置 系统预置采集:可视化管理云原生监控插件的监控采集任务。详情请参见管理监控采集任务。
创建集群前,根据业务场景提前规划节点网络和容器网络,避免后续业务扩容受限。 网络规划 集群所在子网或容器网段较小,将可能导致集群实际支持的可用节点数少于业务所需容量。 网络规划 集群网络地址段规划实践 如何设置CCE集群中的VPC网段和子网网段? 创建集群前,提前梳理云专线、对等连接、容器网段、服务网段和子网网段
使用仪表盘 仪表盘集合了不同视角、不同组件的高频监控指标。将不同的指标以图表的形式直观、综合性地汇集在同一个屏幕上,帮助您实时全面地掌握集群整体运行状况。 仪表盘提供了丰富的视图监控指标呈现,包括集群视图、APIServer视图、Pod视图、主机视图、Node视图等等。 前提条件
集群概述 集群基本信息 Kubernetes版本发布记录 补丁版本发布记录 父主题: 集群
级前需要重新安装开源版本grafana插件。 重新安装grafana不会影响已有的数据。 手动创建的grafana的服务(service)和路由(ingress)无法直接绑定至新的grafana插件,需要手动修改服务的选择器的配置,请及时修改对应的选择器。 方案一:如果当前插件能够升级至3
态。主要包括APIServer组件的请求、资源、工作队列等相关指标。 指标说明 APIServer视图暴露的指标包括请求指标、工作队列指标和资源指标,具体说明如下: 图1 请求指标 表1 请求指标说明 指标名称 单位 说明 存活数 个 组件存活实例数 QPS 请求数/秒 每秒不同响应码的请求个数
节点池视图 从节点池视角呈现节点池资源的占用和分配情况,帮助您详细了解节点池的负载状态。 指标说明 节点池视图暴露的指标如下: 图1 节点池资源指标 表1 视图说明 图表名称 单位 说明 节点池CPU分配率 百分比 节点池里的所有节点的Pod CPU Request总量占所有节点CPU总量的比例
全面、清晰、多维度数据可视化能力。此外,您还可以根据自己的需求,采集和监控工作负载的自定义指标,实现个性化的监控策略。 资源监控指标 资源基础监控包含CPU/内存/磁盘等指标数据,您可以全面监控集群的健康状态和负荷程度,具体请参见监控概述。您可以在CCE控制台从集群、节点、工作负
监控GPU资源指标 通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。 本文将通过一个示例应用演示如何监控GPU资源指标,具体步骤如下: 访问Prometheus (可选)为Prom
100%? 工作负载CPU使用率是使用container_cpu_usage_seconds_total计算的,系统会定期更新CPU使用量和更新时间点。Prometheus默认情况下不会使用指标自带的时间点,而是使用采集时间点,此时会导致CPU使用量的时间点不真实,出现较小的时延。
tes资源的所有的labels和annotation。如需采集,您需要手动在启动参数中开启采集开关,并同时检查名称为kube-state-metrics的ServiceMonitor中采集白名单是否添加相应指标,详情请参见采集Pod所有labels和annotations。 自3
则将返回404错误。 负载均衡实例需与当前集群处于相同VPC 且为相同公网或私网类型。 负载均衡实例需要拥有至少两个监听器配额,且端口80和443没有被监听器占用。 添加Nginx Ingress 本节以Nginx作为工作负载并添加Nginx Ingress为例进行说明。 登录CCE控制台,单击集群名称进入集群。
0及以上版本,需要确认插件配置中开启自定义指标采集。 3.8.0以下版本,无需配置自定义指标采集开关。 插件安装完成后会在集群中部署一系列工作负载和Service。其中Prometheus的Server端会在monitoring命名空间下以有状态工作负载进行部署。 您可以创建一个公网Lo
任务管理和业务构建发布,但可能存在一定的生产安全风险。 一种是Master加Agent模式。Master节点主要是处理调度构建作业,把构建分发到Agent实际执行,监视Agent的状态。业务构建发布的工作交给Agent进行,即执行Master分配的任务,并返回任务的进度和结果。