检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
监控日志 工作负载的“事件”保存多长时间? 容器监控的内存使用率与实际弹性伸缩现象不一致 父主题: 工作负载
们的内存Limit量的比例。 容器CPU受限:Pod的每个容器在不同的时间段的CPU受限时间所占的比例。 容器网络丢包率:Pod的每个的容器在不同的时间段接收丢失的数据包总量占接收的数据包总量的比例。 其他指标 Pod 历史状态:Pod在不同时间段所处的状态。 容器历史状态:Pod的每个容器在不同的时间段所处的状态。
集群监控 当您想观测整个集群的资源使用情况和健康度时,可以在“监控中心 > 集群”页面查看,该页面提供了单个集群的监控情况,包含集群健康度、健康概况、资源消耗Top统计和数据面监控多维度的信息概况。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“集群”页签。
开通监控中心 开通监控中心将在集群中安装云原生监控插件,该插件提供监控中心的指标采集功能。开通后,监控中心将采集集群中的指标并上报至AOM实例。本章节介绍如何为集群开通监控中心功能。 开通监控中心后,集群中的指标将上报至AOM实例,AOM针对基础指标免费,自定义指标由AOM服务收费,具体请参考价格详情。
步骤三:对接第三方监控平台 登录CCE控制台,选择一个已安装云原生监控插件的集群,单击集群名称。 在左侧导航栏中选择“配置中心”,并切换至“监控运维配置”页签。 开启“对接第三方监控平台”,将云原生监控插件采集到的数据上报至第三方监控平台。 数据上报地址:即步骤一中获取的Remote Write
“概览”页面默认展示集群中所有命名空间的事件统计信息,您也可以在右上角的下拉框中切换命名空间,以查看指定命名空间下的事件数据。 根据图1的事件统计数据,您可以清晰地了解到Normal和Warning事件的数量分布情况,呈现为一个圆环图;Warning事件资源维度TOP5指的是排名前五的Warning事
管理监控采集任务 您可以简单、方便地可视化管理采集任务,所有的配置均可在升级云原生监控插件时得到保留。 前提条件 集群中已安装云原生监控插件3.11.0及以上版本。 管理监控采集任务 开启默认关闭的采集任务、添加基础免费指标之外的指标后,若您已对接AOM,AOM服务会按量收取费用。具体请参考价格详情。
te对接三方云原生监控平台的能力,将集群内的监控指标通过Bearer Token认证鉴权的方式上报三方监控平台。 Prometheus监控 Prometheus已经成为了当前云原生可观测性的最常见工具,其强大的监控能力和活跃的社区生态,使其成功CNCF最活跃的托管项目之一。当前C
获取目标集群bearer_token信息。 1.21以前版本的集群中,Pod中获取Token的形式是通过挂载ServiceAccount的Secret来获取Token,这种方式获得的Token是永久的。该方式在1.21及以上的版本中不再推荐使用,并且根据社区版本迭代策略,在1.25及以上版本的集群中,ServiceA
排、管理的事实标准, 越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Ku
内存使用率:节点的内存使用量除以节点的内存总量。 内存分配率:节点上所有容器对内存的 Request 之和占节点的内存总量的比例。 网络相关指标 网络流出速率:节点上的物理网卡在不同的时间段的每秒钟发送的字节数。 网络流入速率:节点上的物理网卡在不同的时间段的每秒钟接收的字节数。 网络发送丢包率:节点的物理网卡网络发送丢包速率。
内存使用率:负载的所有Pod的容器在不同的时间段使用的内存总量占负载的所有Pod的容器的内存Limit总量比例。 网络相关指标 网络总流出速率:负载的所有Pod的容器在不同的时间段的每秒钟发送的总字节数。 网络总流入速率:负载的所有Pod的容器在不同的时间段的每秒钟接收的总字节数。
使用AOM监控自定义指标 CCE支持上传自定义指标到AOM,节点上的ICAgent会定期调用负载中配置的监控指标接口读取监控数据,然后上传到AOM上。 图1 ICAgent采集监控指标 负载的自定义指标接口可以在创建时配置。本文将通过一个Nginx应用的示例演示如何上报自定义监控指标到AOM,步骤如下:
监控中心 监控中心概述 开通监控中心 管理监控采集任务 集群监控 节点监控 工作负载监控 Pod监控 事件监控 仪表盘 父主题: 可观测性
云原生监控 插件介绍 云原生监控插件(kube-prometheus-stack)通过使用Prometheus-operator和Prometheus,提供简单易用的端到端Kubernetes集群监控能力。 使用kube-prometheus-stack可将监控数据与监控中心对接
插件云原生监控插件是否为“运行中”。 图1 检查插件运行状态 如果插件运行异常,可以根据云原生监控插件的实例的事件进行排查。 图2 查看插件事件 可能原因二:云原生监控插件对接的AOM实例被删除 请在集群详情的“插件中心”页面,检查插件云原生监控插件的配置。 图3 编辑插件配置 确认AOM实例非空。
tack)负责监控集群相关指标信息,安装时可选择对接Grafana,以便获得更好的观测性体验。 插件部署模式需选择“Server模式”。 对接Grafana的配置在3.9.0以下版本的云原生监控插件中支持。对于3.9.0及以上版本的插件,如果存在使用Grafana的需求,请单独安
使用云原生监控插件监控自定义指标 CCE提供了云原生监控插件,支持使用Prometheus监控自定义指标。 本文将通过一个Nginx应用的示例演示如何使用Prometheus监控自定义指标,步骤如下: 安装并访问云原生监控插件 CCE提供了集成Prometheus功能的插件,支持一键安装。
监控运维配置 CCE为您提供监控应用及资源的能力,支持采集各项指标及事件等数据以分析应用健康状态,您可以通过“配置中心 > 监控运维配置”统一调整监控运维参数。 您需要开通监控中心,以使用监控运维配置的所有功能。 监控配置 采集配置 系统预置采集:可视化管理云原生监控插件的监控采集任务。详情请参见管理监控采集任务。