检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
界带来通用监控和操作Web界面的项目,集合了命令行可以操作的所有命令。 使用Kubernetes Dashboard,您可以: 向Kubernetes集群部署容器化应用 诊断容器化应用的问题 管理集群的资源 查看集群上所运行的应用程序 创建、修改Kubernetes上的资源(例如
DCGM提供了种类丰富的GPU监控指标,功能特性如下: GPU行为监控 GPU配置管理 GPU Policy管理 GPU健康诊断 GPU级别统计和线程级别统计 NVSwitch配置和监控 本文基于CCE云原生监控插件和DCGM Exporter实现丰富的GPU观测场景,常用指标
5及以上版本云原生监控插件插件。 集群中已安装2.5.4及以上版本的NGINX Ingress控制器插件,且已打开“开启指标采集”开关。 访问Prometheus 云原生监控插件安装完成后会在集群中部署一系列工作负载和Service。其中Prometheus的Server端会在m
创建普通任务(Job) 操作场景 普通任务是一次性运行的短任务,部署完成后即可执行。正常退出(exit 0)后,任务即执行完成。 普通任务是用来控制批处理型任务的资源对象。批处理业务与长期伺服业务(Deployment、Statefulset)的主要区别是: 批处理业务的运行有头
ons的自动发现机制。 迁移方案 Prometheus插件迁移至云原生监控插件有多种方案可供选择,您可根据您的实际诉求,选择最合适的方案进行迁移。 云原生监控插件支持无本地存储的轻量化模式(推荐)和基于本地存储的传统模式。 无本地存储的轻量化模式指标数据存储于AOM,您的Graf
会根据服务类型自动关联该服务的监控指标,帮助用户实时掌握云服务的各项性能指标,精确掌握云服务的运行情况。 建议有存储故障感知诉求的用户配套云监控服务CES的云服务监控能力使用,实现对底层存储的监控和告警通知。 父主题: 存储管理
支持开箱即用,可以在不开通监控中心情况下,进行基础的集群健康诊断 支持全量检查集群整体运行状况(开通监控中心后),发现集群故障与潜在风险 针对诊断结果,智能给出健康评分 支持定时巡检,并可视化巡检结果 支持查看巡检历史,方便用户分析故障原因 针对故障和潜在风险,给出风险等级并提供修复建议
适合对极致性能、资源利用率提升和全场景覆盖有更高诉求的客户。 适合具有明显的波峰波谷特征的业务负载,例如在线教育、电子商务等行业。 规格差异 网络模型 云原生网络1.0:面向性能和规模要求不高的场景。 容器隧道网络模式 VPC网络模式 云原生网络2.0:面向大规模和高性能的场景。 组网规模最大支持2000节点
Kubernetes默认的HPA策略只支持基于CPU和内存的自动伸缩,在复杂的业务场景中,仅使用CPU和内存使用率指标进行弹性伸缩往往无法满足日常运维需求。为此,CCE提供云原生监控插件(kube-prometheus-stack),可全面对接开源Prometheus生态,支持类型丰富的组件监控
Standard集群、CCE Turbo集群开启智能告警中心后,可以进行告警规则的配置和管理。 登录CCE控制台。 在集群列表页面,单击目标集群名称进入详情页。 在左侧导航栏选择“告警中心”,选择“告警规则”页签,在此处进行告警规则的配置和管理。 智能告警中心功能会默认生成容器场景下的告警规则模板(包含异常
其Pod拥有共同的label。但有一个label值不同,用于区分不同的版本。Service使用selector选中了其中一个版本的Deployment的Pod,此时通过修改Service的selector中决定服务版本的label的值来改变Service后端对应的Pod,即可实现
”。 选择“无状态负载”页签,单击已创建工作负载后的“监控”。在监控页面,可查看工作负载的CPU利用率和物理内存使用率。 图1 查看无状态工作负载监控 单击工作负载名称,可在“实例列表”中单击某个实例的“监控”按钮,查看相应实例的CPU使用率、内存使用率。 日志 您可以通过“日志
供调用链、拓扑等监控能力。您可为JAVA类工作负载安装APM探针,以提供更精准的问题分析与定位,协助您高效解决应用难题。 工作负载创建时和创建后,均可以对JAVA类工作负载监控进行设置。 如果您已经使用CCE部署了容器应用,您需要应用性能管理时,需要将容器服务上的JAVA应用通过
CCE Turbo集群支持管理边缘基础设施(智能边缘小站)的能力。启用分布式支持后,一个集群可以统一管理数据中心和边缘的计算资源,用户可以便捷地根据应用的诉求将其部署在对应的区域。 CCE Turbo集群使用分布式云资源功能需要提前注册并部署智能边缘小站服务。 图1 CCE Turbo分布式管理
计费相关FAQ 索引 可观测性(监控中心、日志中心、告警中心)如何收费? 为什么关闭日志中心后还有收费产生? 可观测性(监控中心、日志中心、告警中心)如何收费? 免费场景 监控中心自身免费使用,监控中心所使用的指标都上报并存储在AOM服务,其中在AOM范畴内的基础指标不收费,存储时长1
可自动创建对象存储和对应的PV对象。适用于无可用的底层存储,需要新创建的场景。 计费说明 挂载对象存储类型的存储卷时,通过StorageClass自动创建的对象存储默认创建计费模式为“按需计费”。关于对象存储的价格信息,请参见对象存储计费说明。 如需使用包周期的对象存储,请使用已有的对象存储进行挂载。
通过CCE配置自定义告警 当默认的告警规则无法满足您的述求时,可以创建自定义告警规则。通过在CCE中创建告警规则,您可以及时了解集群中各种资源是否存在异常。 添加指标类告警示例 基于Prometheus指标的阈值告警规则,指标告警规则依赖开通监控中心,请前往监控中心一键开通。详情请参见开通监控中心。 部
云容器引擎提供多维度的监控和告警功能,配置监控告警,以便于异常时及时收到告警并进行故障定位。 云监控服务AOM:CCE默认的基础资源监控,覆盖详细的容器相关指标,并提供告警配置能力。 开源Prometheus:面向云原生应用程序的开源监控工具,并集成独立的告警系统,提供更高自由度的监控告警配置。 监控 未配置监控告警
亲和策略的节点,否则插件实例将无法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。
Dashboard 插件介绍 Kubernetes Dashboard是一个旨在为Kubernetes世界带来通用监控和操作Web界面的项目,集合了命令行可以操作的所有命令。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需指定。