检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在admin用户组下的用户支持此操作。 监控数据上报至第三方监控平台:将普罗数据上报至第三方监控系统,需填写第三方监控系统的地址和Token,并选择是否跳过证书认证。 本地数据存储:将普罗数据存储在集群中的PVC存储卷里,选择用于存储监控数据的磁盘类型和大小。存储卷不随插件卸载而
Targets”,可以查看到Prometheus监控了哪些目标。 图2 查看监控目标 监控GPU指标 创建一个使用GPU的工作负载,等工作负载正常运行后,访问Prometheus,在“Graph”页面中,查看GPU指标。 图3 查看GPU监控指标 表1 GPU基础监控指标 类型 指标 监控级别 说明 利用率指标
标准, 越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在
容器监控的内存使用率与实际弹性伸缩现象不一致 问题现象 容器监控的内存使用率与实际弹性伸缩现象不一致,例如容器内存使用率在界面上显示为40%左右,而HPA设置缩容阈值为70%,但界面上显示的内存使用率低于HPA阈值后并没有发生缩容。 问题根因 界面上显示的容器内存使用率与HPA弹
通过控制台获取华为云Prometheus监控数据 在集群中安装云原生监控插件,采集Prometheus监控数据。 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 建议您关注以下配置,其他配置可按需进行设置。详情请参见云原生监控插件。
云原生监控插件兼容自建Prometheus 云原生监控插件兼容模式 若您已自建Prometheus,且您的Prometheus基于开源,未做深度定制、未与您的监控系统深度整合,建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控,无需开启“兼容模式”。 卸
提供了集群中的PVC监控视图,包含PV/PVC的状态、使用率情况。 支持以下PVC类型监控: 云硬盘类型的PVC(要求volumeMode参数值为Filesystem)支持使用量监控。 本地持久卷类型的PVC(要求集群中安装的Everest版本大于等于2.4.41)支持使用量监控。 极速文
根据页面提示填写基本信息后,设置告警规则。关键参数如下: 详细参数说明请参见创建事件类告警规则。 规则类型:选择“事件告警规则”。 事件类型:选择“系统事件”。 事件来源:选择“CCE”。 监控对象:监控对象可以通过多个维度(通知类型、事件名称、告警级别、自定义属性、命名空间、集群名称)进行筛选,您可以根据需要选择。
监控CoreDNS运行状态 CoreDNS通过标准的Promethues接口暴露出解析结果等健康指标,发现CoreDNS服务端甚至上游DNS服务器的异常。 CoreDNS自身metrics数据接口,默认zone侦听{$POD_IP}:9153,请保持此默认值,否则普罗无法采集coredns
Prometheus本地数据存储模式可以收集有关主机和应用程序的指标数据并存储在集群中,监控数据可以选择上报并存储到AOM或三方监控平台。Prometheus Server视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。 指标说明 Prometheus Server视图暴露的指标如下:
class 根据上一步查询到ELB实例ID,使用查询监听器接口查询监听器ID。 获取ELB监控数据。 ELB的调用CES批量查询监控数据接口,查询ELB的监控数据,ELB详细的监控数据指标请参见ELB监控指标说明。例如如下几种参数 m1_cps:并发连接数 m5_in_pps:流入数据包数
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量
云原生监控插件版本发布记录 表1 云原生监控插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 3.11.0 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 适配CCE v1.30集群 2.37.8 3.10.1 v1.21 v1.23
使用PrometheusRules配置普罗监控与告警规则 Prometheus具有PrometheusRule的能力,PrometheusRules提供了一种用于监控和警报的规则语言,能够方便用户更好的使用Prometheus查询监控指标,配置基于PromQL的告警规则。 当前云原生监控插件仅支持开启本地
fragMemroy:Frag缓冲区使用量。 rawInuse:正在使用的Raw套接字数量。 文件系统异常 / 文件系统状态 readonly:文件系统只读 deviceError:文件系统错误 磁盘读写速率 次/秒 磁盘每秒进行的读写次数 磁盘读和写延迟(秒) 秒 磁盘读写时延 IO队列数
Prometheus Agent是轻量化的容器监控模式,可以收集有关主机和应用程序的指标数据,并将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。 指标说明 Prometheus
基于GPU监控指标的工作负载弹性伸缩配置 集群中包含GPU节点时,可通过GPU指标查看节点GPU资源的使用情况,例如GPU利用率、显存使用量等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,在业务波动时自适应调整应用的副本数量。 前提条件 目标集群已创建,且
在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 在监控CCE Turbo集群容器网络扩展指标的场景下,建议您关注以下配置。该插件的其他配置可按需进行设置,详情请参见云原生监控插件。 本地数据存储:此处选择使用本地存储监控数据,监控数据可选择是否对接AOM或三方监控平台。 自定义指标采
为什么CCE集群界面的节点磁盘监控看起来不准确? 问题描述: CCE集群界面的某个节点磁盘监控高达80%以上,而进入云监控界面看到的磁盘使用率在40%不到。 后面在该节点上排查,发现有一个pvc磁盘使用达到了92%,将这个盘清理后,集群界面的磁盘使用率和云监控使用率一致了。 请问集群界面的节点监控是怎么
2-r3及以上版本的集群中,工作负载的“事件”信息保存时间为1个小时,1小时后自动清除数据。 在1.7.3-r12之前更老的集群版本中,保存时间为24小时。 父主题: 监控日志