检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建完成后在浏览器访问“负载均衡公网IP地址:服务端口”,访问Prometheus。 图1 访问Prometheus 单击“Status > Targets”,可以查看到Prometheus监控了哪些目标。 图2 查看监控目标 监控NGINX Ingress控制器指标 访问Prometheus,在“Graph”页面中,查看NGINX
redns metrics数据。 若您是自建Prometheus监控Kubernetes集群,可以在Prometheus观测相关指标并对以下重点指标设置告警,具体操作请参见enables Prometheus metrics。 父主题: 服务端
监控中心FAQ 索引 为什么监控中心没有数据了? 如何关闭监控中心? 监控中心为什么没有展示自定义指标? 为什么云原生监控插件开启本地数据存储时,重启prometheus-server实例可能会导致节点列表的资源信息短时间(1-2分钟)无法正常显示? 为什么云原生监控插件开启本地
自行开发的应用程序需要提供监控指标接口供采集,且监控数据需要满足Prometheus的规范,详情请参见Prometheus监控数据采集说明。 本文以Nginx为例采集监控数据,Nginx本身有个名叫ngx_http_stub_status_module的模块,这个模块提供了基本的监控功能,通过在nginx
功能。 云原生监控插件也提供了基于RemoteWrite对接三方云原生监控平台的能力,将集群内的监控指标通过Bearer Token认证鉴权的方式上报三方监控平台。 Prometheus监控 Prometheus已经成为了当前云原生可观测性的最常见工具,其强大的监控能力和活跃的社
开通监控中心 开通监控中心将在集群中安装云原生监控插件,该插件提供监控中心的指标采集功能。开通后,监控中心将采集集群中的指标并上报至AOM实例。本章节介绍如何为集群开通监控中心功能。 开通监控中心后,集群中的指标将上报至AOM实例,AOM针对基础指标免费,自定义指标由AOM服务收费,具体请参考价格详情。
grep DCGM_FI_DEV_GPU_UTIL Prometheus页面查看指标监控信息 安装完Prometheus相关插件后,Prometheus默认会创建ClusterIP类型的服务,如果需要对外暴露,需要将Prometheus发布为外部访问(NodePort类型或LoadB
管理监控采集任务 您可以简单、方便地可视化管理采集任务,所有的配置均可在升级云原生监控插件时得到保留。 前提条件 集群中已安装云原生监控插件3.11.0及以上版本。 管理监控采集任务 开启默认关闭的采集任务、添加基础免费指标之外的指标后,若您已对接AOM,AOM服务会按量收取费用。具体请参考价格详情。
监控日志 工作负载的“事件”保存多长时间? 容器监控的内存使用率与实际弹性伸缩现象不一致 父主题: 工作负载
监控运维配置 CCE为您提供监控应用及资源的能力,支持采集各项指标及事件等数据以分析应用健康状态,您可以通过“配置中心 > 监控运维配置”统一调整监控运维参数。 您需要开通监控中心,以使用监控运维配置的所有功能。 监控配置 采集配置 系统预置采集:可视化管理云原生监控插件的监控采集任务。详情请参见管理监控采集任务。
yaml 对接Prometheus Prometheus收集到监控数据后,需要将Prometheus的数据转换成Kubernetes metric api提供给HPA controller使用,这样HPA controller就能根据监控数据进行弹性伸缩。 本示例中需要监控工作负载相
中创建告警规则,您可以及时了解集群中各种资源是否存在异常。 添加指标类告警示例 基于Prometheus指标的阈值告警规则,指标告警规则依赖开通监控中心,请前往监控中心一键开通。详情请参见开通监控中心。 部分指标模板依赖CCE节点故障检测插件(NPD)进行上报,指标详情请参见表1
集群监控 当您想观测整个集群的资源使用情况和健康度时,可以在“监控中心 > 集群”页面查看,该页面提供了单个集群的监控情况,包含集群健康度、健康概况、资源消耗Top统计和数据面监控多维度的信息概况。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“集群”页签。
Pod监控 如果您需要监控Pod的资源使用情况,可以前往“监控中心 > Pod”页面查看。该页面提供了指定集群下所有Pod的综合信息,以及单个Pod的详细监控数据,包括CPU/内存使用率、网络流入/流出速率等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航
事件监控 Kubernetes事件涵盖了集群的运行状态和各类资源的调度情况,对运维人员日常观察资源的变更以及定位问题均有帮助。为了实现这一目标,您需要为集群安装log-agent插件,该插件可以采集Kubernetes事件,并在“监控中心 > 事件”页面进行展示。 功能入口 登录
单击Pod名称可以查看Pod的详细监控数据。更多相关内容,请参见Pod监控。 监控 在此处,您可以方便地查看节点在近1小时、近8小时、近24小时以及自定义时间段内各维度资源的使用情况。如需查看更多监控信息,请单击“查看全部仪表盘”,跳转至“仪表盘”页面,相应指导请参见使用仪表盘。 图4 节点监控 CPU相关指标
控策略。 资源监控指标 资源基础监控包含CPU/内存/磁盘等指标数据,您可以全面监控集群的健康状态和负荷程度,具体请参见监控概述。您可以在CCE控制台从集群、节点、工作负载等维度查看这些监控指标数据,也可以在AOM中查看。 自定义指标 CCE支持采集应用程序中的自定义指标并上传到
工作负载监控 如果您需要监控工作负载的资源使用情况,可以前往“监控中心 > 工作负载”页面查看。该页面提供了指定集群下所有工作负载的综合信息,以及单个工作负载的详细监控数据,包括CPU/内存使用率、网络流入/流出速率等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。
监控中心 监控中心概述 开通监控中心 管理监控采集任务 集群监控 节点监控 工作负载监控 Pod监控 事件监控 仪表盘 父主题: 云原生观测
云原生监控插件状态 否 同上云原生监控插件状态。 prometheus工作负载近24小时CPU使用率最大值是否超过80% 是 云原生监控插件主要提供了集群运维监控的能力,资源使用率过高会导致存在过载风险,影响集群监控能力。可前往“监控中心 > 工作负载”监控中查看prometheus实