检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
提供了集群中的PVC监控视图,包含PV/PVC的状态、使用率情况。 支持以下PVC类型监控: 云硬盘类型的PVC(要求volumeMode参数值为Filesystem)支持使用量监控。 本地持久卷类型的PVC(要求集群中安装的Everest版本大于等于2.4.41)支持使用量监控。 极速文
计费相关FAQ 索引 可观测性(监控中心、日志中心、告警中心)如何收费? 为什么关闭日志中心后还有收费产生? 可观测性(监控中心、日志中心、告警中心)如何收费? 免费场景 监控中心自身免费使用,监控中心所使用的指标都上报并存储在AOM服务,其中在AOM范畴内的基础指标不收费,存储
Prometheus本地数据存储模式可以收集有关主机和应用程序的指标数据并存储在集群中,监控数据可以选择上报并存储到AOM或三方监控平台。Prometheus Server视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。 指标说明 Prometheus Server视图暴露的指标如下:
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量
为什么CCE集群界面的节点磁盘监控看起来不准确? 问题描述: CCE集群界面的某个节点磁盘监控高达80%以上,而进入云监控界面看到的磁盘使用率在40%不到。 后面在该节点上排查,发现有一个pvc磁盘使用达到了92%,将这个盘清理后,集群界面的磁盘使用率和云监控使用率一致了。 请问集群界面的节点监控是怎么
基于GPU监控指标的工作负载弹性伸缩配置 集群中包含GPU节点时,可通过GPU指标查看节点GPU资源的使用情况,例如GPU利用率、显存使用量等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,在业务波动时自适应调整应用的副本数量。 前提条件 目标集群已创建,且
2-r3及以上版本的集群中,工作负载的“事件”信息保存时间为1个小时,1小时后自动清除数据。 在1.7.3-r12之前更老的集群版本中,保存时间为24小时。 父主题: 监控日志
底层存储细节,因此没有感知底层存储故障的能力。 云监控服务CES 具备查看云服务监控指标的能力:云监控服务基于云服务自身的服务属性,已经内置了详细全面的监控指标。当用户在云平台上开通云服务后,系统会根据服务类型自动关联该服务的监控指标,帮助用户实时掌握云服务的各项性能指标,精确掌握云服务的运行情况。
由于CCE在运行中对计算、存储、网络以及监控等各类云服务资源都存在依赖关系,因此当您首次登录CCE控制台时,CCE将自动请求获取当前区域下的云资源权限,从而更好地为您提供服务。服务权限包括: 计算类服务 CCE集群创建节点时会关联创建云服务器,因此需要获取访问弹性云服务器、裸金属服务器的权限。 存储类服务
节点时钟同步服务器检查异常处理 检查项内容 检查节点时钟同步服务器ntpd或chronyd是否运行正常。 解决方案 问题场景一:ntpd运行异常 请登录该节点,执行systemctl status ntpd命令查询ntpd服务运行状态。若回显状态异常,请执行systemctl restart
可移植的包,这个包可以被用来在任何其他运行Docker的机器上使用。 容器和虚拟机具有相似的资源隔离和分配方式,容器虚拟化了操作系统而不是硬件,更加便携和高效。 图1 容器 vs 虚拟机 相比于使用虚拟机,容器有如下优点: 更高效地利用系统资源 由于容器不需要进行硬件虚拟以及运行
Agent视图 Prometheus Agent是轻量化的容器监控模式,可以收集有关主机和应用程序的指标数据,并将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。 指标说明 Prometheus
您的业务造成更大的影响,系统会对受影响的ECS实例生成云服务器事件并进行上报,例如实例重部署、系统维护等。 您可以在弹性云服务器ECS控制台管理云服务器事件,详情请参考弹性云服务器事件概述。 使用场景 云服务器事件处理过程中可能出现云服务器不可用等现象,影响对应Node节点和Po
XGPU视图 XGPU是虚拟化的GPU设备,从XGPU视图可以在节点、GPU卡、容器等多个角度监控XGPU虚拟化设备的显存、算力分配率,帮助您掌控GPU运行状况。 指标说明 图1 XGPU资源指标 表1 XGPU视图图表说明 图表名称 单位 说明 集群-XGPU设备显存使用率 百分比
APIServer视图 提供了Kubernetes核心组件APIServer主要监控视图,帮助您更好的监控APIServer的运行状态。主要包括APIServer组件的请求、资源、工作队列等相关指标。 指标说明 APIServer视图暴露的指标包括请求指标、工作队列指标和资源指标,具体说明如下:
Pod视图 从Pod视角呈现Pod维度集群资源、网络、磁盘等监控情况,帮助您详细了解Pod的运行状态。 指标说明 Pod视图暴露的指标包括Pod资源指标、Pod网络指标和Pod磁盘指标,具体说明如下: 图1 Pod资源指标 表1 Pod资源指标说明 指标名称 单位 说明 容器数 个
主机视图 从主机视角出发,监控主机的资源占用与健康状态,查看主机的磁盘、文件系统等常用系统设备指标,帮助您掌控节点运行状况。 指标说明 主机视图暴露的指标具体说明如下: 图1 主机资源指标 表1 视图说明 图表名称 单位 说明 CPU使用率 百分比 每个CPU核的使用率 平均负载
CoreDNS视图 提供了负载域名解析的CoreDNS监控视图,包含请求、响应情况,以及缓存状况。 指标说明 CoreDNS视图暴露的指标如下: 图1 CoreDNS视图指标 表1 CoreDNS指标说明 指标名称 单位 说明 请求速率 个/秒 CoreDNS每秒请求个数 请求速率(记录类型)
集群处于“运行中”状态。 集群已开通“监控中心”。 查看/切换视图 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“仪表盘”页签,默认展示集群视图。 监控中心仪表盘提供了预置视图,您可单击视图名称边上的“切换视图”按钮,选择需要的视图查看监控数据。 设置查看视图的相关参数。
位集群中出现的问题。本文介绍如何在集群中使用集群诊断功能。 前提条件 已获取资源权限。 集群版本高于v1.17。 集群处于“运行中”状态。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“健康中心”。 您可以在不开通监控中心的情况下,进行基础的集群健