搜索_华为云

使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

仅适用于监控Kubernetes社区原生的GPU资源（nvidia.com/gpu），不支持监控CCE提供的GPU虚拟化资源。前提条件目标集群已创建，且集群中包含GPU节点，并已运行GPU相关业务。在集群中安装CCE AI 套件 (NVIDIA GPU)和云原生监控插件。 CCE

帮助中心 > 云容器引擎 CCE > 最佳实践 > 监控
使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

的包含大量的计算密集型任务，开发者非常愿意基于Kubernetes构建AI平台，充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器。而Kubernetes默认调度

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
监控中心 - 云容器引擎 CCE
监控中心 - 云容器引擎 CCE

监控中心监控中心概述开通监控中心管理监控采集任务集群监控节点监控工作负载监控 Pod监控事件监控仪表盘父主题：云原生观测

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测
监控GPU资源指标 - 云容器引擎 CCE

Targets”，可以查看到Prometheus监控了哪些目标。图2 查看监控目标监控GPU指标创建一个使用GPU的工作负载，等工作负载正常运行后，访问Prometheus，在“Graph”页面中，查看GPU指标。关于GPU指标详情请参见GPU监控指标说明。图3 查看GPU监控指标访问Grafana

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
容器监控的内存使用率与实际弹性伸缩现象不一致 - 云容器引擎 CCE

容器监控的内存使用率与实际弹性伸缩现象不一致问题现象容器监控的内存使用率与实际弹性伸缩现象不一致，例如容器内存使用率在界面上显示为40%左右，而HPA设置缩容阈值为70%，但界面上显示的内存使用率低于HPA阈值后并没有发生缩容。问题根因界面上显示的容器内存使用率与HPA弹

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 监控日志
云原生监控插件兼容自建Prometheus - 云容器引擎 CCE

云原生监控插件兼容自建Prometheus 云原生监控插件兼容模式若您已自建Prometheus，且您的Prometheus基于开源，未做深度定制、未与您的监控系统深度整合，建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控，无需开启“兼容模式”。卸

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测最佳实践
通过PromQL语句查询Prometheus数据 - 云容器引擎 CCE

通过控制台获取华为云Prometheus监控数据在集群中安装云原生监控插件，采集Prometheus监控数据。登录CCE控制台，单击集群名称进入集群，单击左侧导航栏的“插件中心”。在“插件中心”页面右侧找到云原生监控插件，单击“安装”。建议您关注以下配置，其他配置可按需进行设置。详情请参见云原生监控插件。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 监控
功能总览 - 云容器引擎 CCE
功能总览 - 云容器引擎 CCE

CCE提供的节点相关功能包括：购买节点、纳管已有节点到集群、登录节点、节点监控、管理节点标签、同步节点信息、重置节点、删除节点、节点关机等。节点概述购买节点节点池管理 CCE Standard集群、CCE Turbo集群支持 CCE支持创建新的自定义节点池，借助节点池基本功能方便快捷地

 帮助中心 > 云容器引擎 CCE > 功能总览
设置性能管理配置 - 云容器引擎 CCE

应用性能管理服务（APM）当前支持给JAVA类工作负载提供调用链、拓扑等监控能力。您可为JAVA类工作负载安装APM探针，以提供更精准的问题分析与定位，协助您高效解决应用难题。工作负载创建时和创建后，均可以对JAVA类工作负载监控进行设置。如果您已经使用CCE部署了容器应用，您需要应用性

 帮助中心 > 云容器引擎 CCE > 用户指南 > 工作负载 > 配置工作负载
通过AOM配置自定义告警 - 云容器引擎 CCE

添加告警规则。事件类告警：根据集群上报到AOM的事件配置告警。推荐配置的事件和配置方法请参见添加事件类告警。指标类告警：实时监控环境中主机、组件等资源使用情况，根据监控指标阈值告警。推荐配置阈值指标和配置方法请参见添加指标类告警。在SMN创建主题 SMN（Simple Message

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 告警中心
使用Prometheus监控Master节点组件指标 - 云容器引擎 CCE

通过监控中心查看Master节点组件指标云原生监控中心已支持对Master节点的kube-apiserver组件进行监控，您在集群中开通云原生监控中心后（安装云原生监控插件版本为3.5.0及以上），可以查看仪表盘中的APIServer视图，监控API指标。如需对kube-controller、kube-sched

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测最佳实践
PVC视图 - 云容器引擎 CCE
PVC视图 - 云容器引擎 CCE

提供了集群中的PVC监控视图，包含PV/PVC的状态、使用率情况。支持以下PVC类型监控：云硬盘类型的PVC（要求volumeMode参数值为Filesystem）支持使用量监控。本地持久卷类型的PVC（要求集群中安装的Everest版本大于等于2.4.41）支持使用量监控。极速文

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
监控CoreDNS运行状态 - 云容器引擎 CCE

监控CoreDNS运行状态 CoreDNS通过标准的Promethues接口暴露出解析结果等健康指标，发现CoreDNS服务端甚至上游DNS服务器的异常。 CoreDNS自身metrics数据接口，默认zone侦听{$POD_IP}:9153，请保持此默认值，否则普罗无法采集coredns

帮助中心 > 云容器引擎 CCE > 最佳实践 > 网络 > CoreDNS配置优化实践 > 服务端
基于ELB监控指标的弹性伸缩实践 - 云容器引擎 CCE

class 根据上一步查询到ELB实例ID，使用查询监听器接口查询监听器ID。获取ELB监控数据。 ELB的调用CES批量查询监控数据接口，查询ELB的监控数据，ELB详细的监控数据指标请参见ELB监控指标说明。例如如下几种参数 m1_cps：并发连接数 m5_in_pps：流入数据包数

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 弹性伸缩
GPU视图 - 云容器引擎 CCE
GPU视图 - 云容器引擎 CCE

GPU视图 GPU资源指标可以衡量GPU性能和使用情况，包括GPU的利用率、温度、显存等方面的监控数据，帮助您掌控GPU运行状况。指标说明图1 GPU资源指标表1 GPU图表说明图表名称单位说明集群-显存使用率百分比集群的显存使用率计算公式：集群内容器显存使用总量/集群内显存总量

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
Prometheus插件平滑迁移实践 - 云容器引擎 CCE

21以上，您需要将停止维护的Prometheus插件迁移至云原生监控插件，以获取后续的技术支持。本文将指导您将已经停止维护的Prometheus插件迁移至云原生监控插件。云原生监控插件与Prometheus插件的对比如下：云原生监控插件 Prometheus插件（停止维护）云原生监控插件是基于Prometheu

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测最佳实践
云原生监控插件升级检查异常处理 - 云容器引擎 CCE

云原生监控插件升级检查异常处理检查项内容在集群升级过程中，云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时，存在兼容性问题，需检查该插件是否开启了grafana的开关。解决方案由于云原生监控插件在3.9.0之后的版本，不再聚合grafana的能力，因此

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
云原生监控插件版本发布记录 - 云容器引擎 CCE

云原生监控插件版本发布记录表1 云原生监控插件版本记录插件版本支持的集群版本更新特性社区版本 3.11.0 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 适配CCE v1.30集群 2.37.8 3.10.1 v1.21 v1.23

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
Prometheus Server视图 - 云容器引擎 CCE

Prometheus本地数据存储模式可以收集有关主机和应用程序的指标数据并存储在集群中，监控数据可以选择上报并存储到AOM或三方监控平台。Prometheus Server视图展示了Prometheus提供的一些内置指标，可用于监控和度量系统的性能和状态。指标说明 Prometheus Server视图暴露的指标如下：

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
监控NGINX Ingress控制器指标 - 云容器引擎 CCE

eus监控了哪些目标。图2 查看监控目标监控NGINX Ingress控制器指标访问Prometheus，在“Graph”页面中，查看NGINX Ingress控制器指标。图3 查看NGINX Ingress控制器监控指标表1 NGINX Ingress控制器监控指标指标

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测最佳实践

总条数： 559

上一页
1
2
3
4
5
...
28
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

监控中心 - 云容器引擎 CCE

监控GPU资源指标 - 云容器引擎 CCE

容器监控的内存使用率与实际弹性伸缩现象不一致 - 云容器引擎 CCE

云原生监控插件兼容自建Prometheus - 云容器引擎 CCE

通过PromQL语句查询Prometheus数据 - 云容器引擎 CCE

功能总览 - 云容器引擎 CCE

设置性能管理配置 - 云容器引擎 CCE

通过AOM配置自定义告警 - 云容器引擎 CCE

使用Prometheus监控Master节点组件指标 - 云容器引擎 CCE

PVC视图 - 云容器引擎 CCE

监控CoreDNS运行状态 - 云容器引擎 CCE

基于ELB监控指标的弹性伸缩实践 - 云容器引擎 CCE

GPU视图 - 云容器引擎 CCE

Prometheus插件平滑迁移实践 - 云容器引擎 CCE

云原生监控插件升级检查异常处理 - 云容器引擎 CCE

云原生监控插件版本发布记录 - 云容器引擎 CCE

Prometheus Server视图 - 云容器引擎 CCE

监控NGINX Ingress控制器指标 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线