搜索_华为云

监控 - 云容器引擎 CCE
监控 - 云容器引擎 CCE

监控使用Prometheus监控多个集群使用dcgm-exporter监控GPU指标将Prometheus监控数据上报至第三方监控平台通过PromQL语句查询Prometheus数据

 帮助中心 > 云容器引擎 CCE > 最佳实践
工作负载监控 - 云容器引擎 CCE

工作负载监控如果您需要监控工作负载的资源使用情况，可以前往“监控中心 > 工作负载”页面查看。该页面提供了指定集群下所有工作负载的综合信息，以及单个工作负载的详细监控数据，包括CPU/内存使用率、网络流入/流出速率等。功能入口登录CCE控制台，单击集群名称进入集群详情页。

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心
管理监控采集任务 - 云容器引擎 CCE

管理监控采集任务您可以简单、方便地可视化管理采集任务，所有的配置均可在升级云原生监控插件时得到保留。前提条件集群中已安装云原生监控插件3.11.0及以上版本。管理监控采集任务开启默认关闭的采集任务、添加基础免费指标之外的指标后，若您已对接AOM，AOM服务会按量收取费用。具体请参考价格详情。

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心
监控运维配置 - 云容器引擎 CCE

监控运维配置 CCE为您提供监控应用及资源的能力，支持采集各项指标及事件等数据以分析应用健康状态，您可以通过“配置中心 > 监控运维配置”统一调整监控运维参数。您需要开通监控中心，以使用监控运维配置的所有功能。监控配置采集配置系统预置采集：可视化管理云原生监控插件的监控采集任务。详情请参见管理监控采集任务。

帮助中心 > 云容器引擎 CCE > 用户指南 > 配置中心
节点监控 - 云容器引擎 CCE
节点监控 - 云容器引擎 CCE

单击Pod名称可以查看Pod的详细监控数据。更多相关内容，请参见Pod监控。监控在此处，您可以方便地查看节点在近1小时、近8小时、近24小时以及自定义时间段内各维度资源的使用情况。如需查看更多监控信息，请单击“查看全部仪表盘”，跳转至“仪表盘”页面，相应指导请参见使用仪表盘。图4 节点监控 CPU相关指标

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心
监控中心概述 - 云容器引擎 CCE

快捷。监控中心架构图1 监控中心架构云原生监控插件将在CCE集群中采集exporter暴露的指标，通过Prometheus RemoteWrite的方式，将数据写入至AOM实例。监控中心将基于AOM实例中存储的指标，提供多维度数据洞察、仪表盘的功能。云原生监控插件也提供

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心
Pod监控 - 云容器引擎 CCE
Pod监控 - 云容器引擎 CCE

Pod监控如果您需要监控Pod的资源使用情况，可以前往“监控中心 > Pod”页面查看。该页面提供了指定集群下所有Pod的综合信息，以及单个Pod的详细监控数据，包括CPU/内存使用率、网络流入/流出速率等。功能入口登录CCE控制台，单击集群名称进入集群详情页。在左侧导航

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心
监控中心 - 云容器引擎 CCE
监控中心 - 云容器引擎 CCE

监控中心监控中心概述开通监控中心管理监控采集任务集群监控节点监控工作负载监控 Pod监控事件监控仪表盘父主题：云原生观测

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测
事件监控 - 云容器引擎 CCE
事件监控 - 云容器引擎 CCE

事件监控 Kubernetes事件涵盖了集群的运行状态和各类资源的调度情况，对运维人员日常观察资源的变更以及定位问题均有帮助。为了实现这一目标，您需要为集群安装log-agent插件，该插件可以采集Kubernetes事件，并在“监控中心 > 事件”页面进行展示。功能入口登录

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心
开通监控中心 - 云容器引擎 CCE

开通监控中心开通监控中心将在集群中安装云原生监控插件，该插件提供监控中心的指标采集功能。开通后，监控中心将采集集群中的指标并上报至AOM实例。本章节介绍如何为集群开通监控中心功能。开通监控中心后，集群中的指标将上报至AOM实例，AOM针对基础指标免费，自定义指标由AOM服务收费，具体请参考价格详情。

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心
集群监控 - 云容器引擎 CCE
集群监控 - 云容器引擎 CCE

集群监控当您想观测整个集群的资源使用情况和健康度时，可以在“监控中心 > 集群”页面查看，该页面提供了单个集群的监控情况，包含集群健康度、健康概况、资源消耗Top统计和数据面监控多维度的信息概况。功能入口登录CCE控制台，单击集群名称进入集群详情页。在左侧导航栏中选择“监控中心”，单击“集群”页签。

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心
云原生监控 - 云容器引擎 CCE
云原生监控 - 云容器引擎 CCE

云原生监控插件介绍云原生监控插件（kube-prometheus-stack）通过使用Prometheus-operator和Prometheus，提供简单易用的端到端Kubernetes集群监控能力。使用kube-prometheus-stack可将监控数据与监控中心对接

 帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
云原生监控插件 - 云容器引擎 CCE

云原生监控插件插件简介云原生监控插件（原名kube-prometheus-stack）通过使用Prometheus-operator和Prometheus，提供简单易用的端到端Kubernetes集群监控能力。使用云原生监控插件可将监控数据与监控中心对接，在监控中心控制台查看监控数据，配置告警等。

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生可观测性插件
将Prometheus监控数据上报至第三方监控平台 - 云容器引擎 CCE

env.yaml 步骤三：对接第三方监控平台登录CCE控制台，选择一个已安装云原生监控插件的集群，单击集群名称。在左侧导航栏中选择“配置中心”，并切换至“监控运维配置”页签。开启“对接第三方监控平台”，将云原生监控插件采集到的数据上报至第三方监控平台。数据上报地址：即步骤一中获取的Remote

帮助中心 > 云容器引擎 CCE > 最佳实践 > 监控
监控日志 - 云容器引擎 CCE
监控日志 - 云容器引擎 CCE

监控日志工作负载的“事件”保存多长时间？容器监控的内存使用率与实际弹性伸缩现象不一致父主题：工作负载

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载
CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标 - 云容器引擎 CCE

DCGM构建，提供了更强大的GPU监控功能。DCGM提供了种类丰富的GPU监控指标，功能特性如下： GPU行为监控 GPU配置管理 GPU Policy管理 GPU健康诊断 GPU级别统计和线程级别统计 NVSwitch配置和监控本文基于CCE云原生监控插件和DCGM Exporte

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
使用AOM监控自定义指标 - 云容器引擎 CCE

使用AOM监控自定义指标 CCE支持上传自定义指标到AOM，节点上的ICAgent会定期调用负载中配置的监控指标接口读取监控数据，然后上传到AOM上。图1 ICAgent采集监控指标负载的自定义指标接口可以在创建时配置。本文将通过一个Nginx应用的示例演示如何上报自定义监控指标到AOM，步骤如下：

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测最佳实践
使用Prometheus监控多个集群 - 云容器引擎 CCE

rometheus，对接监控多个集群的指标信息。方案架构将多个集群对接到同一个Prometheus监控系统，如下所示，节约维护成本和资源成本，且方便汇聚监控信息。前提条件目标集群已创建。 Prometheus与目标集群之间网络保持连通。已在一台Linux主机中使用二进制

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 监控
使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

仅适用于监控Kubernetes社区原生的GPU资源（nvidia.com/gpu），不支持监控CCE提供的GPU虚拟化资源。前提条件目标集群已创建，且集群中包含GPU节点，并已运行GPU相关业务。在集群中安装CCE AI 套件 (NVIDIA GPU)和云原生监控插件。 CCE

帮助中心 > 云容器引擎 CCE > 最佳实践 > 监控
使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

使用Kubeflow和Volcano实现典型AI训练任务 Kubernetes已经成为云原生应用编排、管理的事实标准，越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务，开发者非常愿意基于Kubernetes构建AI平台，充分利用Kubernet

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow

总条数： 716

上一页
1
2
3
4
5
...
36
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

监控 - 云容器引擎 CCE

工作负载监控 - 云容器引擎 CCE

管理监控采集任务 - 云容器引擎 CCE

监控运维配置 - 云容器引擎 CCE

节点监控 - 云容器引擎 CCE

监控中心概述 - 云容器引擎 CCE

Pod监控 - 云容器引擎 CCE

监控中心 - 云容器引擎 CCE

事件监控 - 云容器引擎 CCE

开通监控中心 - 云容器引擎 CCE

集群监控 - 云容器引擎 CCE

云原生监控 - 云容器引擎 CCE

云原生监控插件 - 云容器引擎 CCE

将Prometheus监控数据上报至第三方监控平台 - 云容器引擎 CCE

监控日志 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标 - 云容器引擎 CCE

使用AOM监控自定义指标 - 云容器引擎 CCE

使用Prometheus监控多个集群 - 云容器引擎 CCE

使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线