检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
字节。 如您不需要查看xgpu指标,可以通过标签正则进行过滤,如: cce_gpu_memory_used{gpu_index=~"[^|]"} 表1 GPU基础监控指标 类型 指标 指标类型 单位 监控级别 说明 DCGM指标换算关系 利用率指标 cce_gpu_utilization
哪些目标。 图2 查看监控目标 监控GPU指标 创建一个使用GPU的工作负载,等工作负载正常运行后,访问Prometheus,在“Graph”页面中,查看GPU指标。 关于GPU指标详情请参见GPU监控指标说明。 图3 查看GPU监控指标 访问Grafana Prometheus
扩缩容事件 ELB监听器指标 通过本文方法可采集的ELB监听器指标如下: 表1 ELB监听器指标 指标 指标名称 单位 说明 m1_cps 并发连接数 个 统计负载均衡器当前处理的并发连接数量。 m1e_server_rps 后端服务器重置数量 个/秒 该指标用于统计后端服务器发送
CCE容器网络扩展指标 插件介绍 CCE容器网络扩展指标插件(dolphin)是一款容器网络流量监控管理插件,支持CCE Turbo集群非主机网络容器的流量统计,以及节点内容器联通性健康检查。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object
一个MonitorPolicy代表着一个监控任务,提供selector、podLabel等可选参数。当前支持的监控指标如下: 表2 当前支持的监控指标 监控指标 监控项名称 监控粒度 支持的运行时 支持的集群版本 支持的插件版本 支持的操作系统 IPv4发送公网报文数 dolp
控平台。 自定义指标采集:该配置在本实践中必须选择开启,否则将无法采集自定义指标。 插件配置完成后,单击“安装”。 步骤二:获取Prometheus监控数据 本文中通过与Pod相关的指标进行HPA扩缩,例如Pod自身维度的指标。您也可以通过与Pod不相关的的指标进行HPA扩缩,例
关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 可观测指标 以下是一些常用的GPU观测指标,更多指标详情请参见Field Identifiers。 表1 利用率 指标名称 指标类型 单位 说明 DCGM_FI_DEV_GPU_UTIL Gauge % GPU利用率 D
基于GPU监控指标的工作负载弹性伸缩配置 集群中包含GPU节点时,可通过GPU指标查看节点GPU资源的使用情况,例如GPU利用率、显存使用量等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,在业务波动时自适应调整应用的副本数量。 前提条件 目标集群已创建,且
Annotations监控自定义指标 方法二:配置Service Annotations监控自定义指标 方法三:配置Pod Monitor监控自定义指标 方法四:配置Service Monitor监控自定义指标 方法五:使用AdditionalScrapeConfigs监控自定义指标 自定义指标计费说明
创建使用自定义指标的HPA策略 Kubernetes默认的HPA策略只支持基于CPU和内存的自动伸缩,在复杂的业务场景中,仅使用CPU和内存使用率指标进行弹性伸缩往往无法满足日常运维需求。通过自定义指标配置工作负载HPA策略,可以根据业务自身特点,通过更多指标实现更灵活的弹性配置。
使用AOM监控自定义指标 CCE支持上传自定义指标到AOM,节点上的ICAgent会定期调用负载中配置的监控指标接口读取监控数据,然后上传到AOM上。 图1 ICAgent采集监控指标 负载的自定义指标接口可以在创建时配置。本文将通过一个Nginx应用的示例演示如何上报自定义监控指标到AOM,步骤如下:
Turbo集群容器网络扩展指标,具体步骤如下: 安装插件 监控容器网络扩展指标 (可选)通过Grafana查看图表 前提条件 已创建一个CCE Turbo集群。 集群中存在足够的节点资源(不小于4U8G),用于安装云原生监控插件和CCE容器网络扩展指标插件。 使用kubectl连
CCE容器网络扩展指标插件版本发布记录 表1 CCE容器网络扩展指标插件版本记录 插件版本 支持的集群版本 更新特性 1.4.15 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 支持CCE Turbo v1.30集群 1.4.7 v1.23 v1.25 v1
监控NGINX Ingress控制器指标 访问Prometheus,在“Graph”页面中,查看NGINX Ingress控制器指标。 图3 查看NGINX Ingress控制器监控指标 表1 NGINX Ingress控制器监控指标 指标 指标类型 说明 nginx_ingres
视图,监控API指标。 如需对kube-controller、kube-scheduler、etcd-server组件进行监控,请参考以下步骤。 此3个组件监控指标不在容器基础指标范围,监控中心将该类指标上报至AOM后会进行收费,因此监控中心会默认屏蔽采集该类指标。 登录CCE控制台,单击集群名称进入集群详情页。
rver主要监控视图,帮助您更好的监控APIServer的运行状态。主要包括APIServer组件的请求、资源、工作队列等相关指标。 指标说明 APIServer视图暴露的指标包括请求指标、工作队列指标和资源指标,具体说明如下: 图1 请求指标 表1 请求指标说明 指标名称 单位
集群视图 基于集群的指标和PromQL语句,提供了集群节点、CPU、内存、网络、磁盘等关键资源相关图表,帮助您了解整体集群的资源运行状态。接下来主要从指标说明、指标清单两个部分来进行图表的说明,其中图表中对于数值过大的字节(bytes)会换算为MB、KB、GB等。 指标说明 集群视图暴
CCE如何与其他服务进行内网通信? 与CCE进行内网通信的华为云常见服务有:RDS、DMS、Kafka、RabbitMQ、VPN、ModelArts等,有如下两种场景: 在同一个VPC网络下,CCE节点可以与此VPC下的所有服务进行互通。CCE的容器与其他服务通信时,需要关注对端
从Pod视角呈现Pod维度集群资源、网络、磁盘等监控情况,帮助您详细了解Pod的运行状态。 指标说明 Pod视图暴露的指标包括Pod资源指标、Pod网络指标和Pod磁盘指标,具体说明如下: 图1 Pod资源指标 表1 Pod资源指标说明 指标名称 单位 说明 容器数 个 Pod中的容器总数 运行中容器数 个
CCE集群节点中安装kubelet的端口主要有哪些? CCE集群节点中安装kubelet的端口主要有如下几个: 10250 –port:kubelet服务与API Server通信的端口。 10248 –healthz-port:健康检查服务的端口。 10255 –read-on