搜索_华为云

云原生监控插件升级检查异常处理 - 云容器引擎 CCE

云原生监控插件升级检查异常处理检查项内容在集群升级过程中，云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时，存在兼容性问题，需检查该插件是否开启了grafana的开关。解决方案由于云原生监控插件在3.9.0之后的版本，不再聚合grafana的能力，因此

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
监控CCE Turbo集群容器网络扩展指标 - 云容器引擎 CCE

在“插件中心”页面右侧找到云原生监控插件，单击“安装”。在监控CCE Turbo集群容器网络扩展指标的场景下，建议您关注以下配置。该插件的其他配置可按需进行设置，详情请参见云原生监控插件。本地数据存储：此处选择使用本地存储监控数据，监控数据可选择是否对接AOM或三方监控平台。自定义指标采

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测最佳实践
基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置集群中包含GPU节点时，可通过GPU指标查看节点GPU资源的使用情况，例如GPU利用率、显存使用量等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，在业务波动时自适应调整应用的副本数量。前提条件目标集群已创建，且

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
Prometheus Server视图 - 云容器引擎 CCE

Prometheus本地数据存储模式可以收集有关主机和应用程序的指标数据并存储在集群中，监控数据可以选择上报并存储到AOM或三方监控平台。Prometheus Server视图展示了Prometheus提供的一些内置指标，可用于监控和度量系统的性能和状态。指标说明 Prometheus Server视图暴露的指标如下：

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
Kubelet视图 - 云容器引擎 CCE
Kubelet视图 - 云容器引擎 CCE

）的分布情况 process_resident_memory_bytes Gauge 进程驻留内存大小（以字节为单位） process_cpu_seconds_total Counter 进程用户和系统 CPU 总时间（以秒为单位） go_goroutines Gauge 协程数量

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
为什么CCE集群界面的节点磁盘监控看起来不准确？ - 云容器引擎 CCE

为什么CCE集群界面的节点磁盘监控看起来不准确？问题描述： CCE集群界面的某个节点磁盘监控高达80%以上，而进入云监控界面看到的磁盘使用率在40%不到。后面在该节点上排查，发现有一个pvc磁盘使用达到了92%，将这个盘清理后，集群界面的磁盘使用率和云监控使用率一致了。请问集群界面的节点监控是怎么

 帮助中心 > 云容器引擎 CCE > 常见问题 > 集群 > 集群运行
工作负载的“事件”保存多长时间？ - 云容器引擎 CCE

2-r3及以上版本的集群中，工作负载的“事件”信息保存时间为1个小时，1小时后自动清除数据。在1.7.3-r12之前更老的集群版本中，保存时间为24小时。父主题：监控日志

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 监控日志
使用Prometheus监控Master节点组件指标 - 云容器引擎 CCE

通过监控中心查看Master节点组件指标云原生监控中心已支持对Master节点的kube-apiserver组件进行监控，您在集群中开通云原生监控中心后（安装云原生监控插件版本为3.5.0及以上），可以查看仪表盘中的APIServer视图，监控API指标。如需对kube-controller、kube-sched

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测最佳实践
CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标 - 云容器引擎 CCE

DCGM构建，提供了更强大的GPU监控功能。DCGM提供了种类丰富的GPU监控指标，功能特性如下： GPU行为监控 GPU配置管理 GPU Policy管理 GPU健康诊断 GPU级别统计和线程级别统计 NVSwitch配置和监控本文基于CCE云原生监控插件和DCGM Exporte

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
通过AOM配置自定义告警 - 云容器引擎 CCE

添加告警规则。事件类告警：根据集群上报到AOM的事件配置告警。推荐配置的事件和配置方法请参见添加事件类告警。指标类告警：实时监控环境中主机、组件等资源使用情况，根据监控指标阈值告警。推荐配置阈值指标和配置方法请参见添加指标类告警。在SMN创建主题 SMN（Simple Message

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 告警中心
仪表盘 - 云容器引擎 CCE
仪表盘 - 云容器引擎 CCE

CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图父主题：监控中心

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心
集群视图 - 云容器引擎 CCE
集群视图 - 云容器引擎 CCE

otal counter 容器CPU累计使用时间 container_memory_rss gauge RSS内存，即常驻内存集。是分配给进程使用的实际物理内存字节数，不是磁盘上缓存的虚机内存。 container_network_receive_bytes_total counter

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
XGPU视图 - 云容器引擎 CCE
XGPU视图 - 云容器引擎 CCE

XGPU视图 XGPU是虚拟化的GPU设备，从XGPU视图可以在节点、GPU卡、容器等多个角度监控XGPU虚拟化设备的显存、算力分配率，帮助您掌控GPU运行状况。指标说明图1 XGPU资源指标表1 XGPU视图图表说明图表名称单位说明集群-XGPU设备显存使用率百分比

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
使用仪表盘 - 云容器引擎 CCE
使用仪表盘 - 云容器引擎 CCE

集群处于“运行中”状态。集群已开通“监控中心”。查看/切换视图登录CCE控制台，单击集群名称进入集群详情页。在左侧导航栏中选择“监控中心”，单击“仪表盘”页签，默认展示集群视图。监控中心仪表盘提供了预置视图，您可单击视图名称边上的“切换视图”按钮，选择需要的视图查看监控数据。设置查看视图的相关参数。

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
Prometheus Agent视图 - 云容器引擎 CCE

Agent视图 Prometheus Agent是轻量化的容器监控模式，可以收集有关主机和应用程序的指标数据，并将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标，可用于监控和度量系统的性能和状态。指标说明 Prometheus

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
CCE节点故障检测 - 云容器引擎 CCE

CCE节点故障检测插件（node-problem-detector，简称NPD）是一款监控集群节点异常事件的插件，以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序，可从不同的守护进程中搜集节点问题并将其报告给apiserver。node-problem-detector可以作为DaemonSet运行，

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
管理工作负载 - 云容器引擎 CCE

日志、监控、回退、删除等操作。表1 工作负载/任务管理操作描述监控可以通过CCE控制台查看工作负载和容器组的CPU和内存占用情况，以确定需要的资源规格。日志可查看工作负载的日志信息。升级可以通过更换镜像或镜像版本实现无状态工作负载、有状态工作负载、守护进程集的快速升级，业务无中断。

帮助中心 > 云容器引擎 CCE > 用户指南 > 工作负载
CCE节点故障检测 - 云容器引擎 CCE

默认时钟偏移阈值：8000ms 进程D异常 ProcessD 检查节点是否存在D进程默认阈值：连续3次存在10个异常进程数据来源： /proc/{PID}/stat 等效命令：ps aux 例外场景：ProcessD忽略BMS节点下的SDI卡驱动依赖的常驻D进程heartbeat、update

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生可观测性插件
工作负载异常：OOM问题 - 云容器引擎 CCE

单击工作负载操作列的“监控”，即可查看Pod的CPU、内存、网络I/O等监控大盘。通过Pod内存监控查看内存增长曲线，确定异常出现时间。根据监控、内存增长时间点、日志、进程名等信息，排查Pod内对应进程是否存在内存泄漏。若OOM是进程内存泄漏导致，请您自行排查泄露原因。若进程运行状态正

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 工作负载异常问题排查
节点池视图 - 云容器引擎 CCE
节点池视图 - 云容器引擎 CCE

节点池视图从节点池视角呈现节点池资源的占用和分配情况，帮助您详细了解节点池的负载状态。指标说明节点池视图暴露的指标如下：图1 节点池资源指标表1 视图说明图表名称单位说明节点池CPU分配率百分比节点池里的所有节点的Pod CPU Request总量占所有节点CPU总量的比例

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘

总条数： 301

上一页
1
2
3
4
5
...
16
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

云原生监控插件升级检查异常处理 - 云容器引擎 CCE

监控CCE Turbo集群容器网络扩展指标 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

Prometheus Server视图 - 云容器引擎 CCE

Kubelet视图 - 云容器引擎 CCE

为什么CCE集群界面的节点磁盘监控看起来不准确？ - 云容器引擎 CCE

工作负载的“事件”保存多长时间？ - 云容器引擎 CCE

使用Prometheus监控Master节点组件指标 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标 - 云容器引擎 CCE

通过AOM配置自定义告警 - 云容器引擎 CCE

仪表盘 - 云容器引擎 CCE

集群视图 - 云容器引擎 CCE

XGPU视图 - 云容器引擎 CCE

使用仪表盘 - 云容器引擎 CCE

Prometheus Agent视图 - 云容器引擎 CCE

CCE节点故障检测 - 云容器引擎 CCE

管理工作负载 - 云容器引擎 CCE

CCE节点故障检测 - 云容器引擎 CCE

工作负载异常：OOM问题 - 云容器引擎 CCE

节点池视图 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线