搜索_华为云

监控运维配置 - 云容器引擎 CCE

监控运维配置 CCE为您提供监控应用及资源的能力，支持采集各项指标及事件等数据以分析应用健康状态，您可以通过“配置中心 > 监控运维配置”统一调整监控运维参数。您需要开通监控中心，以使用监控运维配置的所有功能。监控配置采集配置系统预置采集：可视化管理云原生监控插件的监控采集任务。详情请参见管理监控采集任务。

帮助中心 > 云容器引擎 CCE > 用户指南 > 配置中心
云原生监控插件 - 云容器引擎 CCE

云原生监控插件插件简介云原生监控插件（原名kube-prometheus-stack）通过使用Prometheus-operator和Prometheus，提供简单易用的端到端Kubernetes集群监控能力。使用云原生监控插件可将监控数据与监控中心对接，在监控中心控制台查看监控数据，配置告警等。

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生可观测性插件
监控GPU资源指标 - 云容器引擎 CCE

Targets”，可以查看到Prometheus监控了哪些目标。图2 查看监控目标监控GPU指标创建一个使用GPU的工作负载，等工作负载正常运行后，访问Prometheus，在“Graph”页面中，查看GPU指标。关于GPU指标详情请参见GPU监控指标说明。图3 查看GPU监控指标访问Grafana

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
XGPU视图 - 云容器引擎 CCE
XGPU视图 - 云容器引擎 CCE

每个节点的GPU虚拟化设备数量节点-XGPU设备显存分配量字节每个节点上的GPU虚拟化设备显存总量 GPU卡-XGPU设备显存使用率百分比每张GPU卡上的GPU虚拟化设备显存使用率计算公式：显卡上所有XGPU设备的显存使用量之和 / 显卡显存总量 GPU卡-XGPU设备显存分配量

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
容器监控的内存使用率与实际弹性伸缩现象不一致 - 云容器引擎 CCE

容器监控的内存使用率与实际弹性伸缩现象不一致问题现象容器监控的内存使用率与实际弹性伸缩现象不一致，例如容器内存使用率在界面上显示为40%左右，而HPA设置缩容阈值为70%，但界面上显示的内存使用率低于HPA阈值后并没有发生缩容。问题根因界面上显示的容器内存使用率与HPA弹

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 监控日志
CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标 - 云容器引擎 CCE

DCGM构建，提供了更强大的GPU监控功能。DCGM提供了种类丰富的GPU监控指标，功能特性如下： GPU行为监控 GPU配置管理 GPU Policy管理 GPU健康诊断 GPU级别统计和线程级别统计 NVSwitch配置和监控本文基于CCE云原生监控插件和DCGM Exporte

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
通过PromQL语句查询Prometheus数据 - 云容器引擎 CCE

通过控制台获取华为云Prometheus监控数据在集群中安装云原生监控插件，采集Prometheus监控数据。登录CCE控制台，单击集群名称进入集群，单击左侧导航栏的“插件中心”。在“插件中心”页面右侧找到云原生监控插件，单击“安装”。建议您关注以下配置，其他配置可按需进行设置。详情请参见云原生监控插件。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 监控
通过AOM配置自定义告警 - 云容器引擎 CCE

订阅主题后，请前往您的订阅终端（邮件或短信）手动确认添加订阅，消息通知才可生效。创建行动规则 AOM提供告警行动规则定制功能，您可以通过创建告警行动规则关联SMN主题与消息模板，通过创建消息模板，自定义通知消息配置。具体方法请参见创建告警行动规则。创建时选择在SMN创建主题创建并订阅的主题。添加事件类告警

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 告警中心
使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

标准，越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务，开发者非常愿意基于Kubernetes构建AI平台，充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
主机视图 - 云容器引擎 CCE
主机视图 - 云容器引擎 CCE

主机视图从主机视角出发，监控主机的资源占用与健康状态，查看主机的磁盘、文件系统等常用系统设备指标，帮助您掌控节点运行状况。指标说明主机视图暴露的指标具体说明如下：图1 主机资源指标表1 视图说明图表名称单位说明 CPU使用率百分比每个CPU核的使用率平均负载

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
监控CoreDNS运行状态 - 云容器引擎 CCE

监控CoreDNS运行状态 CoreDNS通过标准的Promethues接口暴露出解析结果等健康指标，发现CoreDNS服务端甚至上游DNS服务器的异常。 CoreDNS自身metrics数据接口，默认zone侦听{$POD_IP}:9153，请保持此默认值，否则普罗无法采集coredns

帮助中心 > 云容器引擎 CCE > 最佳实践 > 网络 > CoreDNS配置优化实践 > 服务端
云原生监控插件兼容自建Prometheus - 云容器引擎 CCE

云原生监控插件兼容自建Prometheus 云原生监控插件兼容模式若您已自建Prometheus，且您的Prometheus基于开源，未做深度定制、未与您的监控系统深度整合，建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控，无需开启“兼容模式”。卸

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测最佳实践
PVC视图 - 云容器引擎 CCE
PVC视图 - 云容器引擎 CCE

提供了集群中的PVC监控视图，包含PV/PVC的状态、使用率情况。支持以下PVC类型监控：云硬盘类型的PVC（要求volumeMode参数值为Filesystem）支持使用量监控。本地持久卷类型的PVC（要求集群中安装的Everest版本大于等于2.4.41）支持使用量监控。极速文

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
云原生监控插件版本发布记录 - 云容器引擎 CCE

云原生监控插件版本发布记录表1 云原生监控插件版本记录插件版本支持的集群版本更新特性社区版本 3.12.0 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 v1.31 适配CCE v1.31集群升级Prometheus版本 2.53

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
基于ELB监控指标的弹性伸缩实践 - 云容器引擎 CCE

class 根据上一步查询到ELB实例ID，使用查询监听器接口查询监听器ID。获取ELB监控数据。 ELB的调用CES批量查询监控数据接口，查询ELB的监控数据，ELB详细的监控数据指标请参见ELB监控指标说明。例如如下几种参数 m1_cps：并发连接数 m5_in_pps：流入数据包数

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 弹性伸缩
Pod视图 - 云容器引擎 CCE
Pod视图 - 云容器引擎 CCE

Pod视图从Pod视角呈现Pod维度集群资源、网络、磁盘等监控情况，帮助您详细了解Pod的运行状态。指标说明 Pod视图暴露的指标包括Pod资源指标、Pod网络指标和Pod磁盘指标，具体说明如下：图1 Pod资源指标表1 Pod资源指标说明指标名称单位说明容器数个

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
使用PrometheusRules配置普罗监控与告警规则 - 云容器引擎 CCE

使用PrometheusRules配置普罗监控与告警规则 Prometheus具有PrometheusRule的能力，PrometheusRules提供了一种用于监控和警报的规则语言，能够方便用户更好的使用Prometheus查询监控指标，配置基于PromQL的告警规则。当前云原生监控插件仅支持开启本地

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测最佳实践
GPU视图 - 云容器引擎 CCE
GPU视图 - 云容器引擎 CCE

GPU视图 GPU资源指标可以衡量GPU性能和使用情况，包括GPU的利用率、温度、显存等方面的监控数据，帮助您掌控GPU运行状况。指标说明图1 GPU资源指标表1 GPU图表说明图表名称单位说明集群-显存使用率百分比集群的显存使用率计算公式：集群内容器显存使用总量/集群内显存总量

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
CoreDNS视图 - 云容器引擎 CCE
CoreDNS视图 - 云容器引擎 CCE

CoreDNS视图提供了负载域名解析的CoreDNS监控视图，包含请求、响应情况，以及缓存状况。指标说明 CoreDNS视图暴露的指标如下：图1 CoreDNS视图指标表1 CoreDNS指标说明指标名称单位说明请求速率个/秒 CoreDNS每秒请求个数请求速率(记录类型)

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置集群中包含GPU节点时，可通过GPU指标查看节点GPU资源的使用情况，例如GPU利用率、显存使用量等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，在业务波动时自适应调整应用的副本数量。前提条件目标集群已创建，且

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度

总条数： 294

上一页
1
2
3
4
5
...
15
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

监控运维配置 - 云容器引擎 CCE

云原生监控插件 - 云容器引擎 CCE

监控GPU资源指标 - 云容器引擎 CCE

XGPU视图 - 云容器引擎 CCE

容器监控的内存使用率与实际弹性伸缩现象不一致 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标 - 云容器引擎 CCE

通过PromQL语句查询Prometheus数据 - 云容器引擎 CCE

通过AOM配置自定义告警 - 云容器引擎 CCE

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

主机视图 - 云容器引擎 CCE

监控CoreDNS运行状态 - 云容器引擎 CCE

云原生监控插件兼容自建Prometheus - 云容器引擎 CCE

PVC视图 - 云容器引擎 CCE

云原生监控插件版本发布记录 - 云容器引擎 CCE

基于ELB监控指标的弹性伸缩实践 - 云容器引擎 CCE

Pod视图 - 云容器引擎 CCE

使用PrometheusRules配置普罗监控与告警规则 - 云容器引擎 CCE

GPU视图 - 云容器引擎 CCE

CoreDNS视图 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线