检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
弹性IP:节点端口”的形式访问工作负载。工作负载可被公网访问。 容器端口:指容器中工作负载启动监听的端口。端口根据每个业务的不同而不同,一般在容器镜像中已指定。 服务端口:指该容器工作负载发布为服务后,所设定的服务端口号,请填写1-65535之间的整数值。 节点端口:指容器映射到
CCE集群节点中安装kubelet的端口主要有哪些? CCE集群节点中安装kubelet的端口主要有如下几个: 10250 –port:kubelet服务与API Server通信的端口。 10248 –healthz-port:健康检查服务的端口。 10255 –read-only-port:只读端口,用于对外提供监控指标。
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
CCE节点上监听的端口列表 表1 Node节点监听端口 目的端口 协议 端口说明 10248 TCP kubelet健康检查端口 10250 TCP kubelet服务端口,提供节点上工作负载的监控信息和容器的访问通道 10255 TCP kubelet只读端口,提供节点上工作负载的监控信息
此配置由集群的service-node-port-range配置项确定范围,建议配置在30000-32767之间 端口号小于20106会和CCE组件的健康检查端口冲突,引发集群不可用 端口号高于32767会和net.ipv4.ip_local_port_range范围冲突,影响性能 业务端口 service服务暴露的端口
此配置是Nodeport类型的service可分配端口范围 配置建议: 30000-32767 端口号小于20106会和CCE组件的健康检查端口冲突,引发集群不可用 端口号高于32767会和net.ipv4.ip_local_port_range范围冲突,影响性能 父主题: 集群
管理监控采集任务 您可以简单、方便地可视化管理采集任务,所有的配置均可在升级云原生监控插件时得到保留。 前提条件 集群中已安装云原生监控插件3.11.0及以上版本。 管理监控采集任务 开启默认关闭的采集任务、添加基础免费指标之外的指标后,若您已对接AOM,AOM服务会按量收取费用。具体请参考价格详情。
集群监控 当您想观测整个集群的资源使用情况和健康度时,可以在“监控中心 > 集群”页面查看,该页面提供了单个集群的监控情况,包含集群健康度、健康概况、资源消耗Top统计和数据面监控多维度的信息概况。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“集群”页签。
Pod监控 如果您需要监控Pod的资源使用情况,可以前往“监控中心 > Pod”页面查看。该页面提供了指定集群下所有Pod的综合信息,以及单个Pod的详细监控数据,包括CPU/内存使用率、网络流入/流出速率等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航
Annotations监控自定义指标 方法二:配置Service Annotations监控自定义指标 方法三:配置Pod Monitor监控自定义指标 方法四:配置Service Monitor监控自定义指标 方法五:使用AdditionalScrapeConfigs监控自定义指标 自定义指标计费说明
rometheus,对接监控多个集群的指标信息。 方案架构 将多个集群对接到同一个Prometheus监控系统,如下所示,节约维护成本和资源成本,且方便汇聚监控信息。 前提条件 目标集群已创建。 Prometheus与目标集群之间网络保持连通。 已在一台Linux主机中使用二进制
env.yaml 步骤三:对接第三方监控平台 登录CCE控制台,选择一个已安装云原生监控插件的集群,单击集群名称。 在左侧导航栏中选择“配置中心”,并切换至“监控运维配置”页签。 开启“对接第三方监控平台”,将云原生监控插件采集到的数据上报至第三方监控平台。 数据上报地址:即步骤一中获取的Remote
快捷。 监控中心架构 图1 监控中心架构 云原生监控插件将在CCE集群中采集exporter暴露的指标,通过Prometheus RemoteWrite的方式,将数据写入至AOM实例。 监控中心将基于AOM实例中存储的指标,提供多维度数据洞察、仪表盘的功能。 云原生监控插件也提供
云原生监控插件 插件简介 云原生监控插件(原名kube-prometheus-stack)通过使用Prometheus-operator和Prometheus,提供简单易用的端到端Kubernetes集群监控能力。 使用云原生监控插件可将监控数据与监控中心对接,在监控中心控制台查看监控数据,配置告警等。
事件监控 Kubernetes事件涵盖了集群的运行状态和各类资源的调度情况,对运维人员日常观察资源的变更以及定位问题均有帮助。为了实现这一目标,您需要为集群安装log-agent插件,该插件可以采集Kubernetes事件,并在“监控中心 > 事件”页面进行展示。 功能入口 登录
监控日志 工作负载的“事件”保存多长时间? 容器监控的内存使用率与实际弹性伸缩现象不一致 父主题: 工作负载
开通监控中心 开通监控中心将在集群中安装云原生监控插件,该插件提供监控中心的指标采集功能。开通后,监控中心将采集集群中的指标并上报至AOM实例。本章节介绍如何为集群开通监控中心功能。 开通监控中心后,集群中的指标将上报至AOM实例,AOM针对基础指标免费,自定义指标由AOM服务收费,具体请参考价格详情。
使用AOM监控自定义指标 CCE支持上传自定义指标到AOM,节点上的ICAgent会定期调用负载中配置的监控指标接口读取监控数据,然后上传到AOM上。 图1 ICAgent采集监控指标 负载的自定义指标接口可以在创建时配置。本文将通过一个Nginx应用的示例演示如何上报自定义监控指标到AOM,步骤如下:
GPU监控数据如需上报AOM服务,请在云原生监控插件中开启上报至AOM服务开关。对于上报至AOM服务的GPU指标属于自定义指标,将进行按需收费,详情请参见价格详情。 设置插件支持的其他参数配置,单击“安装”。参数配置详情请参见CCE AI套件(NVIDIA GPU)。 监控应用GPU指标
监控中心FAQ 索引 为什么监控中心没有数据了? 如何关闭监控中心? 监控中心为什么没有展示自定义指标? 为什么云原生监控插件开启本地数据存储时,重启prometheus-server实例可能会导致节点列表的资源信息短时间(1-2分钟)无法正常显示? 为什么云原生监控插件开启本地