搜索_华为云

基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置集群中包含GPU节点时，可通过GPU指标查看节点GPU资源的使用情况，例如GPU利用率、显存使用量等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，在业务波动时自适应调整应用的副本数量。前提条件目标集群已创建，且

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
工作负载的“事件”保存多长时间？ - 云容器引擎 CCE

2-r3及以上版本的集群中，工作负载的“事件”信息保存时间为1个小时，1小时后自动清除数据。在1.7.3-r12之前更老的集群版本中，保存时间为24小时。父主题：监控日志

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 监控日志
CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标 - 云容器引擎 CCE

DCGM构建，提供了更强大的GPU监控功能。DCGM提供了种类丰富的GPU监控指标，功能特性如下： GPU行为监控 GPU配置管理 GPU Policy管理 GPU健康诊断 GPU级别统计和线程级别统计 NVSwitch配置和监控本文基于CCE云原生监控插件和DCGM Exporte

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
Prometheus Agent视图 - 云容器引擎 CCE

Agent视图 Prometheus Agent是轻量化的容器监控模式，可以收集有关主机和应用程序的指标数据，并将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标，可用于监控和度量系统的性能和状态。指标说明 Prometheus

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
Pod视图 - 云容器引擎 CCE
Pod视图 - 云容器引擎 CCE

Pod视图从Pod视角呈现Pod维度集群资源、网络、磁盘等监控情况，帮助您详细了解Pod的运行状态。指标说明 Pod视图暴露的指标包括Pod资源指标、Pod网络指标和Pod磁盘指标，具体说明如下：图1 Pod资源指标表1 Pod资源指标说明指标名称单位说明容器数个

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
CoreDNS视图 - 云容器引擎 CCE
CoreDNS视图 - 云容器引擎 CCE

CoreDNS视图提供了负载域名解析的CoreDNS监控视图，包含请求、响应情况，以及缓存状况。指标说明 CoreDNS视图暴露的指标如下：图1 CoreDNS视图指标表1 CoreDNS指标说明指标名称单位说明请求速率个/秒 CoreDNS每秒请求个数请求速率(记录类型)

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
XGPU视图 - 云容器引擎 CCE
XGPU视图 - 云容器引擎 CCE

XGPU视图 XGPU是虚拟化的GPU设备，从XGPU视图可以在节点、GPU卡、容器等多个角度监控XGPU虚拟化设备的显存、算力分配率，帮助您掌控GPU运行状况。指标说明图1 XGPU资源指标表1 XGPU视图图表说明图表名称单位说明集群-XGPU设备显存使用率百分比

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
主机视图 - 云容器引擎 CCE
主机视图 - 云容器引擎 CCE

主机视图从主机视角出发，监控主机的资源占用与健康状态，查看主机的磁盘、文件系统等常用系统设备指标，帮助您掌控节点运行状况。指标说明主机视图暴露的指标具体说明如下：图1 主机资源指标表1 视图说明图表名称单位说明 CPU使用率百分比每个CPU核的使用率平均负载

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
使用仪表盘 - 云容器引擎 CCE
使用仪表盘 - 云容器引擎 CCE

集群处于“运行中”状态。集群已开通“监控中心”。查看/切换视图登录CCE控制台，单击集群名称进入集群详情页。在左侧导航栏中选择“监控中心”，单击“仪表盘”页签，默认展示集群视图。监控中心仪表盘提供了预置视图，您可单击视图名称边上的“切换视图”按钮，选择需要的视图查看监控数据。设置查看视图的相关参数。

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
APIServer视图 - 云容器引擎 CCE
APIServer视图 - 云容器引擎 CCE

APIServer视图提供了Kubernetes核心组件APIServer主要监控视图，帮助您更好的监控APIServer的运行状态。主要包括APIServer组件的请求、资源、工作队列等相关指标。指标说明 APIServer视图暴露的指标包括请求指标、工作队列指标和资源指标，具体说明如下：

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
集群视图 - 云容器引擎 CCE
集群视图 - 云容器引擎 CCE

集群视图基于集群的指标和PromQL语句，提供了集群节点、CPU、内存、网络、磁盘等关键资源相关图表，帮助您了解整体集群的资源运行状态。接下来主要从指标说明、指标清单两个部分来进行图表的说明，其中图表中对于数值过大的字节（bytes）会换算为MB、KB、GB等。指标说明集群

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
Kubelet视图 - 云容器引擎 CCE
Kubelet视图 - 云容器引擎 CCE

Kubelet视图 Kubelet是运行在集群中每个节点上的代理程序，它提供了一些指标可以更好地了解集群的运行状态。指标说明 Kubelet视图暴露的指标如下：表1 Kubelet图表说明视图名称单位说明运行中Kubelet 个集群运行中的kubelet的数量运行中Pod

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
Node视图 - 云容器引擎 CCE
Node视图 - 云容器引擎 CCE

Node视图从节点视角出发，加入了节点资源、网络、磁盘等关键指标呈现，帮助您掌控节点运行状况。指标说明 Node视图暴露的指标如下：图1 Node资源指标表1 Node资源指标说明指标名称单位说明节点CPU使用率百分比节点CPU使用率 CPURequests水位

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
节点池视图 - 云容器引擎 CCE
节点池视图 - 云容器引擎 CCE

节点池视图从节点池视角呈现节点池资源的占用和分配情况，帮助您详细了解节点池的负载状态。指标说明节点池视图暴露的指标如下：图1 节点池资源指标表1 视图说明图表名称单位说明节点池CPU分配率百分比节点池里的所有节点的Pod CPU Request总量占所有节点CPU总量的比例

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
Prometheus插件平滑迁移实践 - 云容器引擎 CCE

21以上，您需要将停止维护的Prometheus插件迁移至云原生监控插件，以获取后续的技术支持。本文将指导您将已经停止维护的Prometheus插件迁移至云原生监控插件。云原生监控插件与Prometheus插件的对比如下：云原生监控插件 Prometheus插件（停止维护）云原生监控插件是基于Prometheu

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测最佳实践
CCE容器云存储PVC能否感知底层存储故障？ - 云容器引擎 CCE

底层存储细节，因此没有感知底层存储故障的能力。云监控服务CES 具备查看云服务监控指标的能力：云监控服务基于云服务自身的服务属性，已经内置了详细全面的监控指标。当用户在云平台上开通云服务后，系统会根据服务类型自动关联该服务的监控指标，帮助用户实时掌握云服务的各项性能指标，精确掌握云服务的运行情况。

帮助中心 > 云容器引擎 CCE > 常见问题 > 存储管理
基于Prometheus指标的弹性伸缩实践 - 云容器引擎 CCE

步骤一：安装云原生监控插件登录CCE控制台，单击集群名称进入集群，单击左侧导航栏的“插件中心”。在“插件中心”页面右侧找到云原生监控插件，单击“安装”。建议您关注以下配置，其他配置可按需进行设置。详情请参见云原生监控插件。本地数据存储：使用本地存储监控数据，监控数据可选择是否上报至AOM或三方监控平台。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 弹性伸缩
通过AOM配置自定义告警 - 云容器引擎 CCE

添加告警规则。事件类告警：根据集群上报到AOM的事件配置告警。推荐配置的事件和配置方法请参见添加事件类告警。指标类告警：实时监控环境中主机、组件等资源使用情况，根据监控指标阈值告警。推荐配置阈值指标和配置方法请参见添加指标类告警。在SMN创建主题 SMN（Simple Message

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 告警中心
计费相关FAQ - 云容器引擎 CCE
计费相关FAQ - 云容器引擎 CCE

计费相关FAQ 索引可观测性（监控中心、日志中心、告警中心）如何收费？为什么关闭日志中心后还有收费产生？可观测性（监控中心、日志中心、告警中心）如何收费？免费场景监控中心自身免费使用，监控中心所使用的指标都上报并存储在AOM服务，其中在AOM范畴内的基础指标不收费，存储

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测FAQ
通过CCE配置自定义告警 - 云容器引擎 CCE

集群中各种资源是否存在异常。添加指标类告警示例基于Prometheus指标的阈值告警规则，指标告警规则依赖开通监控中心，请前往监控中心一键开通。详情请参见开通监控中心。部分指标模板依赖CCE节点故障检测插件（NPD）进行上报，指标详情请参见表1。如需要使用相关的告警规则，请

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 告警中心

总条数： 488

上一页
1
2
3
4
5
...
25
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

工作负载的“事件”保存多长时间？ - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标 - 云容器引擎 CCE

Prometheus Agent视图 - 云容器引擎 CCE

Pod视图 - 云容器引擎 CCE

CoreDNS视图 - 云容器引擎 CCE

XGPU视图 - 云容器引擎 CCE

主机视图 - 云容器引擎 CCE

使用仪表盘 - 云容器引擎 CCE

APIServer视图 - 云容器引擎 CCE

集群视图 - 云容器引擎 CCE

Kubelet视图 - 云容器引擎 CCE

Node视图 - 云容器引擎 CCE

节点池视图 - 云容器引擎 CCE

Prometheus插件平滑迁移实践 - 云容器引擎 CCE

CCE容器云存储PVC能否感知底层存储故障？ - 云容器引擎 CCE

基于Prometheus指标的弹性伸缩实践 - 云容器引擎 CCE

通过AOM配置自定义告警 - 云容器引擎 CCE

计费相关FAQ - 云容器引擎 CCE

通过CCE配置自定义告警 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线