检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开启后将禁止删除或退订集群。 集群控制节点可用区 您可查看集群控制节点数量,如果需要查看控制节点资源使用率等数据,请单击右上角“查看监控”,前往监控中心页面查看。 已安装插件 您可查看集群中已安装的插件,当集群中存在可以升级的插件时,请单击“前往升级”,在插件中心页面进行查看。 父主题:
设置插件支持的“参数配置”。 AHPA策略:开启后,可根据历史监控指标趋势,预测副本数并提前扩缩容。详情请参见创建AHPA策略。 AHPA策略依赖安装云原生监控插件,请先安装插件并开启“监控数据上报至AOM服务”开关。详情请参见云原生监控插件。 设置插件实例的部署策略。 调度策略对于DaemonSet类型的插件实例不会生效。
使用率等等。而这些数据的监控能力Kubernetes也没有自己实现,而是通过其他项目来扩展Kubernetes的能力。 Prometheus是一套开源的系统监控报警框架,能够采集丰富的Metrics(度量数据),目前已经基本是Kubernetes的标准监控方案。 Metrics
io/custom-endpoints AOM监控指标上报参数,可将指定指标上报是AOM服务。 具体使用请参见使用AOM监控自定义指标。 - prometheus.io/scrape Prometheus指标上报参数,值为true表示当前负载开启上报。 具体使用请参见使用云原生监控插件监控自定义指标。 - prometheus
部署dcgm-exporter组件。 启用dcgm-exporter组件后,采集的GPU监控数据如需上报AOM服务,请安装云原生监控插件并开启上报至AOM服务开关,同时前往“配置中心 > 监控运维配置”页开启dcgm-exporter组件的ServiceMonitor。对于上报至
批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用
署的工作负载,对于未设置资源上下限的工作负载,如果其异常资源泄露会导致其它工作负载分配不到资源而异常。未设置资源上下限的工作负载,工作负载监控信息也会不准确。 配置说明 在实际生产业务中,建议申请和限制比例为1:1.5左右,对于一些敏感业务建议设置成1:1。如果申请值过小而限制值
14及以上版本的插件,详情请参见Volcano调度器。 已安装CCE云原生监控插件(kube-prometheus-stack),并开启“本地数据存储”模式,详情请参见云原生监控插件。若您使用的是自建Prometheus监控系统,建议Prometheus版本为2.35.0及以上,具体操作指
表9 metrics配置 参数 是否必选 参数类型 描述 enable 否 bool 是否指标监控,默认true。 excludeSocketMetrics 否 String 屏蔽的监控指标,默认值为"nginx_ingress_controller_success,nginx_
安全 责任共担 数据保护技术 审计与日志 监控安全风险 认证证书
工作负载 工作负载异常问题排查 容器设置 监控日志 调度策略 其他
容节点,使得集群有足够资源;而当HPA缩容后集群会有大量空余资源,这时需要CA缩容节点释放资源,才不至于造成浪费。 如图1所示,HPA根据监控指标进行扩容,当集群资源不够时,新创建的Pod会处于Pending状态,CA会检查所有Pending状态的Pod,根据用户配置的扩缩容策略
云原生观测 云原生观测体系概述 云原生观测委托权限说明 健康中心 监控中心 日志中心 告警中心 日志审计 云原生观测FAQ 云原生观测最佳实践
CCE突发弹性引擎(对接 CCI)作为一种虚拟的kubelet用来连接Kubernetes集群和其他平台的API。Bursting的主要场景是将Kubernetes API扩展到无服务器的容器平台(如CCI)。 基于该插件,支持用户在短时高负载场景下,将部署在云容器引擎CCE上的无状态负
支持存活探针检查机制 支持为业务容器自动挂载Ascend驱动 1.2.14 v1.19 v1.21 v1.23 v1.25 v1.27 支持NPU监控 1.2.9 v1.19 v1.21 v1.23 v1.25 v1.27 适配CCE v1.27集群 1.2.6 v1.19 v1.21 v1
服务治理:深度集成应用服务网格,提供开箱即用的应用服务网格流量治理能力,用户无需修改代码,即可实现灰度发布、流量治理和流量监控能力。 容器运维:深度集成容器智能分析,可实时监控应用及资源,支持采集、管理、分析日志,采集各项指标及事件并提供一键开启的告警能力。 扩展插件市场:提供了多种类型的
单击工作负载操作列的“日志”。 您可以在日志上方切换实例和容器。 Pod监控检查方法 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 登录容器的方法 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。
志采集插件采集容器日志 详细方法请参见Kubernetes事件上报应用运维管理(AOM) 监控目录数 目录递归深度最多5层,最大不超过1000个文件。 支持最多3层模糊匹配目录。 - 监控文件数 每个通过卷挂载日志的路径下,ICAgent最多采集20个日志文件。 每个ICAgen
Volcano调度器版本发布记录 CCE密钥管理(对接 DEW)插件版本发布记录 CCE容器网络扩展指标插件版本发布记录 节点本地域名解析加速插件版本发布记录 云原生监控插件版本发布记录 云原生日志采集插件版本发布记录 容器镜像签名验证插件版本发布记录 Grafana插件版本发布记录 OpenKruise插件版本发布记录
致节点发生故障的几率的激增。为了应对集群节负载不均衡等问题,动态平衡各个节点之间的资源使用率,需要基于节点的相关监控指标,构建集群资源视图,在集群治理阶段,通过实时监控,在观测到节点资源率较高、节点故障、Pod 数量较多等情况时,可以自动干预,迁移资源使用率高的节点上的一些Pod到利用率低的节点上。