检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过grafana查看AOM中的指标数据 前提条件 已购买弹性云服务器ECS。 已购买弹性公网IP,并绑定到购买的弹性云服务器ECS上,具体操作请参见《弹性公网IP快速入门》。 操作步骤 安装并启动Grafana,具体操作请参见Grafana官方文档。
Grafana 插件简介 Grafana是一款开源的数据可视化和监控平台,可以为您提供丰富的图表和面板,用于实时监控、分析和可视化各种指标和数据源。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到Grafana,单击“安装”。 设置插件
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
使用Grafana查看AOM中的监控指标 安装配置Grafana 配置Grafana数据源 配置仪表盘查看指标数据 父主题: ModelArts Standard资源监控
env.yaml 步骤三:对接第三方监控平台 登录CCE控制台,选择一个已安装云原生监控插件的集群,单击集群名称。 在左侧导航栏中选择“配置中心”,并切换至“监控运维配置”页签。 开启“对接第三方监控平台”,将云原生监控插件采集到的数据上报至第三方监控平台。 数据上报地址:即步骤一中获取的Remote
使用云原生监控插件监控自定义指标 CCE提供了云原生监控插件,支持使用Prometheus监控自定义指标。 本文将通过一个Nginx应用的示例演示如何使用Prometheus监控自定义指标,步骤如下: 安装并访问云原生监控插件 CCE提供了集成Prometheus功能的插件,支持一键安装。
接入Prometheus/Grafana 安装配置CES Exporter 将监控数据导出到自建Prometheus/Grafana 父主题: 接入中心
接入Prometheus/Grafana 将实时监控数据接入自建Prometheus
登录到Prometheus所在机器,进入Prometheus的安装目录,将目标集群的token信息保存在文件中。 配置Prometheus监控job。 示例job监控的是容器指标。如果需要监控其他指标,可自行添加job编写抓取规则。 - job_name: k8s_cAdvisor scheme: https
工作负载监控 如果您需要监控工作负载的资源使用情况,可以前往“监控中心 > 工作负载”页面查看。该页面提供了指定集群下所有工作负载的综合信息,以及单个工作负载的详细监控数据,包括CPU/内存使用率、网络流入/流出速率等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。
Grafana插件版本发布记录 表1 Grafana插件版本记录 插件版本 支持的集群版本 更新特性 1.3.0 v1.17 v1.19 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 支持v1.30集群 1.2.1 v1.17 v1.19 v1
云原生监控插件 插件简介 云原生监控插件(原名kube-prometheus-stack)通过使用Prometheus-operator和Prometheus,提供简单易用的端到端Kubernetes集群监控能力。 使用云原生监控插件可将监控数据与监控中心对接,在监控中心控制台查看监控数据,配置告警等。
驱动进行安装。 云原生监控插件(kube-prometheus-stack)负责监控集群相关指标信息,安装时可选择对接Grafana,以便获得更好的观测性体验。 插件部署模式需选择“本地数据存储”。 对接Grafana的配置在3.9.0以下版本的云原生监控插件中支持。对于3.9.
开通监控中心 开通监控中心将在集群中安装云原生监控插件,该插件提供监控中心的指标采集功能。开通后,监控中心将采集集群中的指标并上报至AOM实例。本章节介绍如何为集群开通监控中心功能。 开通监控中心后,集群中的指标将上报至AOM实例,AOM针对基础指标免费,自定义指标由AOM服务收费,具体请参考价格详情。
管理监控采集任务 您可以简单、方便地可视化管理采集任务,所有的配置均可在升级云原生监控插件时得到保留。 前提条件 集群中已安装云原生监控插件3.11.0及以上版本。 管理监控采集任务 开启默认关闭的采集任务、添加基础免费指标之外的指标后,若您已对接AOM,AOM服务会按量收取费用。具体请参考价格详情。
集群监控 当您想观测整个集群的资源使用情况和健康度时,可以在“监控中心 > 集群”页面查看,该页面提供了单个集群的监控情况,包含集群健康度、健康概况、资源消耗Top统计和数据面监控多维度的信息概况。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“集群”页签。
支持从外部访问Prometheus。 监控GPU指标 在集群中部署使用GPU能力的工作负载,将自动上报GPU监控指标。 访问Grafana 从Grafana可视化面板中查看Prometheus的监控数据。 前提条件 集群中已安装云原生监控插件插件。 集群中已安装CCE AI套件(NVIDIA
快捷。 监控中心架构 图1 监控中心架构 云原生监控插件将在CCE集群中采集exporter暴露的指标,通过Prometheus RemoteWrite的方式,将数据写入至AOM实例。 监控中心将基于AOM实例中存储的指标,提供多维度数据洞察、仪表盘的功能。 云原生监控插件也提供
监控中心 监控中心概述 开通监控中心 管理监控采集任务 集群监控 节点监控 工作负载监控 Pod监控 事件监控 仪表盘 父主题: 云原生观测
单击Pod名称可以查看Pod的详细监控数据。更多相关内容,请参见Pod监控。 监控 在此处,您可以方便地查看节点在近1小时、近8小时、近24小时以及自定义时间段内各维度资源的使用情况。如需查看更多监控信息,请单击“查看全部仪表盘”,跳转至“仪表盘”页面,相应指导请参见使用仪表盘。 图4 节点监控 CPU相关指标
Pod监控 如果您需要监控Pod的资源使用情况,可以前往“监控中心 > Pod”页面查看。该页面提供了指定集群下所有Pod的综合信息,以及单个Pod的详细监控数据,包括CPU/内存使用率、网络流入/流出速率等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航
云原生监控插件升级检查异常处理 检查项内容 在集群升级过程中,云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时,存在兼容性问题,需检查该插件是否开启了grafana的开关。 解决方案 由于云原生监控插件在3.9.0之后的版本,不再聚合grafana的能力,因此
监控日志 工作负载的“事件”保存多长时间? 容器监控的内存使用率与实际弹性伸缩现象不一致 父主题: 工作负载
事件监控 Kubernetes事件涵盖了集群的运行状态和各类资源的调度情况,对运维人员日常观察资源的变更以及定位问题均有帮助。为了实现这一目标,您需要为集群安装log-agent插件,该插件可以采集Kubernetes事件,并在“监控中心 > 事件”页面进行展示。 功能入口 登录