XGPU视图 XGPU是虚拟化的GPU设备,从XGPU视图可以在节点、GPU卡、容器等多个角度监控XGPU虚拟化设备的显存、算力分配率,帮助您掌控GPU运行状况。 图表说明 图1 XGPU视图图表 表1 XGPU视图图表说明 图表名称 单位 说明 集群-XGPU设备显存使用率 百分比
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 图表说明 图1 GPU视图图表 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量
CoreDNS视图 提供了负载域名解析的CoreDNS监控视图,包含请求、响应情况,以及缓存状况。 指标说明 CoreDNS视图暴露的指标如下: 图1 CoreDNS视图指标 表1 CoreDNS指标说明 指标名称 单位 说明 请求速率 个/秒 CoreDNS每秒请求个数 请求速率(记录类型)
节点操作系统 集群版本与操作系统对应关系 如下为当前已经发布的集群版本与操作系统版本的对应关系,请参考: 表1 弹性云服务器-虚拟机节点操作系统 操作系统 集群版本 CCE Standard集群 CCE Turbo集群 最新内核信息 VPC网络模型 容器隧道网络模型 云原生网络2
fragMemroy:Frag缓冲区使用量。 rawInuse:正在使用的Raw套接字数量。 文件系统异常 / 文件系统状态 readonly:文件系统只读 deviceError:文件系统错误 磁盘读写速率 次/秒 磁盘每秒进行的读写次数 磁盘读和写延迟(秒) 秒 磁盘读写时延 IO队列数
云原生监控插件升级检查异常处理 检查项内容 在集群升级过程中,云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时,存在兼容性问题,需检查该插件是否开启了grafana的开关。 解决方案 由于云原生监控插件在3.9.0之后的版本,不再聚合grafana的能力,因此
APIServer视图 提供了Kubernetes核心组件APIServer主要监控视图,帮助您更好的监控APIServer的运行状态。主要包括APIServer组件的请求、资源、工作队列等相关指标。 指标说明 APIServer视图暴露的指标包括请求指标、工作队列指标和资源指标,具体说明如下:
eus监控了哪些目标。 图2 查看监控目标 监控NGINX Ingress控制器指标 访问Prometheus,在“Graph”页面中,查看NGINX Ingress控制器指标。 图3 查看NGINX Ingress控制器监控指标 表1 NGINX Ingress控制器监控指标 指标
节点操作系统说明 本文为您提供当前已经发布的集群版本与操作系统版本的对应关系。 操作系统说明 表1 操作系统说明 操作系统类型 说明 Huawei Cloud EulerOS Huawei Cloud EulerOS(简称HCE OS),是基于华为开源社区openEuler构建的
为什么CCE集群界面的节点磁盘监控看起来不准确? 问题描述: CCE集群界面的某个节点磁盘监控高达80%以上,而进入云监控界面看到的磁盘使用率在40%不到。 后面在该节点上排查,发现有一个pvc磁盘使用达到了92%,将这个盘清理后,集群界面的磁盘使用率和云监控使用率一致了。 请问集群界面的节点监控是怎么
2-r3及以上版本的集群中,工作负载的“事件”信息保存时间为1个小时,1小时后自动清除数据。 在1.7.3-r12之前更老的集群版本中,保存时间为24小时。 父主题: 监控日志
CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图 父主题: 监控中心
根据页面提示填写基本信息后,设置告警规则。关键参数如下: 详细参数说明请参见创建事件类告警规则。 规则类型:选择“事件告警规则”。 事件类型:选择“系统事件”。 事件来源:选择“CCE”。 监控对象:监控对象可以通过多个维度(通知类型、事件名称、告警级别、自定义属性、命名空间、集群名称)进行筛选,您可以根据需要选择。
底层存储细节,因此没有感知底层存储故障的能力。 云监控服务CES 具备查看云服务监控指标的能力:云监控服务基于云服务自身的服务属性,已经内置了详细全面的监控指标。当用户在云平台上开通云服务后,系统会根据服务类型自动关联该服务的监控指标,帮助用户实时掌握云服务的各项性能指标,精确掌握云服务的运行情况。
集群中处在不同运行状态下的Pod个数(状态包含:Failed、Pending、Running、Succeeded、Unknown等)。 容器数 个 集群中处在不同运行状态下的容器个数(状态包含:Containers Running、Containers Waiting、Containers Terminated等)。
volume_manager_total_volumes Gauge Volume Manager中的卷数 kubelet_running_containers Gauge 当前运行的Containers数 kubelet_running_pods Gauge 当前运行的pod数 kubelet_node_name
集群处于“运行中”状态。 集群已开通“监控中心”。 查看/切换视图 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“仪表盘”页签,默认展示集群视图。 监控中心仪表盘提供了预置视图,您可单击视图名称边上的“切换视图”按钮,选择需要的视图查看监控数据。 设置查看视图的相关参数。
插件简介 CCE容器存储(Everest)是一个云原生容器存储系统,基于CSI(即Container Storage Interface)为Kubernetes v1.15.6及以上版本集群对接云存储服务的能力。 该插件为系统资源插件,Kubernetes 1.15及以上版本的集群在创建时默认安装。
节点不同模式下花费的CPU秒 node_memory_MemAvailable_bytes Gauge 节点的可用内存量 node_memory_MemTotal_bytes Gauge 节点的内存总量 kube_pod_container_resource_requests Gauge Pod
Prometheus(停止维护) 插件简介 Prometheus是一套开源的系统监控报警框架。它启发于Google的borgmon监控系统,由工作在SoundCloud的Google前员工在2012年创建,作为社区开源项目进行开发,并于2015年正式发布。2016年,Prometheus正式加入Cloud
您即将访问非华为云网站,请注意账号财产安全