检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
首先,Volcano通过静态分析,获取应用的静态特征,如:CPU、内存、存储、GPU等资源的需求,应用间亲和性、区域亲和性、云平台亲和性等。 接着,Volcano对接监控系统,获取不同云平台资源、集群资源的动态数据,以及应用运行的数据,分析其规律,获得其运行态势,如:业务分级(天/周/月)的潮汐规律性、CP
10 1.14.11 v1.17 v1.19 v1.21 适配CCE v1.21集群 0.7.1 1.14.5 v1.17 v1.19 修复监控指标无法被获取的问题 0.7.1 1.14.4 v1.17 v1.19 适配ARM64节点部署 适配containerd运行时节点 0.7
使用率等等。而这些数据的监控能力Kubernetes也没有自己实现,而是通过其他项目来扩展Kubernetes的能力。 Prometheus是一套开源的系统监控报警框架,能够采集丰富的Metrics(度量数据),目前已经基本是Kubernetes的标准监控方案。 Metrics
单击工作负载操作列的“日志”。 您可以在日志上方切换实例和容器。 Pod监控检查方法 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 登录容器的方法 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。
部署dcgm-exporter组件。 启用dcgm-exporter组件后,采集的GPU监控数据如需上报AOM服务,请安装云原生监控插件并开启上报至AOM服务开关,同时前往“配置中心 > 监控运维配置”页开启dcgm-exporter组件的ServiceMonitor。对于上报至
开启后将禁止删除或退订集群。 集群控制节点可用区 您可查看集群控制节点数量,如果需要查看控制节点资源使用率等数据,请单击右上角“查看监控”,前往监控中心页面查看。 已安装插件 您可查看集群中已安装的插件,当集群中存在可以升级的插件时,请单击“前往升级”,在插件中心页面进行查看。 父主题:
配置工作负载 安全运行时与普通运行时 设置时区同步 设置镜像拉取策略 使用第三方镜像 使用SWR企业版镜像仓库镜像 设置容器规格 设置容器生命周期 设置容器健康检查 设置环境变量 设置性能管理配置 设置工作负载升级策略 设置容忍策略 设置标签与注解 父主题: 工作负载
表9 metrics配置 参数 是否必选 参数类型 描述 enable 否 bool 是否指标监控,默认true。 excludeSocketMetrics 否 String 屏蔽的监控指标,默认值为"nginx_ingress_controller_success,nginx_
14及以上版本的插件,详情请参见Volcano调度器。 已安装CCE云原生监控插件(kube-prometheus-stack),并开启“本地数据存储”模式,详情请参见云原生监控插件。若您使用的是自建Prometheus监控系统,建议Prometheus版本为2.35.0及以上,具体操作指
参考排查项继续排查)。 检查节点监控 登录CCE服务控制台。 在界面中选择需要检查节点所在的集群。 在集群列表页面单击“节点管理”,切换到“节点”一栏,在异常节点所在行单击“监控”。 单击“监控”页签顶部的“查看更多”,前往运维管理页面查看历史监控记录。当节点CPU和内存负载过高
使用自定义策略时,集群中需要安装支持采集自定义指标的插件(例如Prometheus),且工作负载需正常上报并采集自定义指标。 采集自定义指标的方法及示例请参见使用云原生监控插件监控自定义指标。 自定义指标名称:自定义指标的名称,输入时可根据联想值进行选择。 指标来源:在下拉框中选择对象类型,可选择“Pod”。 期
存储,比如基因测序、图片渲染等。 高性能网站、日志存储、DevOps、企业办公等。 大数据分析、静态网站托管、在线视频点播、基因测序、智能视频监控、备份归档、企业云盘(网盘)等。 混合负载,专属分布式存储可同时支持HPC、数据库、Email、OA办公、Web等多个应用混合部署 高性能计算
志采集插件采集容器日志 详细方法请参见Kubernetes事件上报应用运维管理(AOM) 监控目录数 目录递归深度最多5层,最大不超过1000个文件。 支持最多3层模糊匹配目录。 - 监控文件数 每个通过卷挂载日志的路径下,ICAgent最多采集20个日志文件。 每个ICAgen
致节点发生故障的几率的激增。为了应对集群节负载不均衡等问题,动态平衡各个节点之间的资源使用率,需要基于节点的相关监控指标,构建集群资源视图,在集群治理阶段,通过实时监控,在观测到节点资源率较高、节点故障、Pod 数量较多等情况时,可以自动干预,迁移资源使用率高的节点上的一些Pod到利用率低的节点上。
谨慎调整VPC和虚拟机的DNS配置 在服务端,您可以合理地调整CoreDNS部署状态或者调整CoreDNS配置来提升集群CoreDNS的可用性和吞吐量。 监控CoreDNS运行状态 调整CoreDNS部署状态 合理配置CoreDNS 更多CoreDNS配置,详见CoreDNS官网:https://coredns
在左侧导航栏中选择“插件中心”,确认CoreDNS插件状态为“运行中”。 单击CoreDNS插件名称,查看插件实例列表。 单击CoreDNS实例的“监控”按钮,查看实例CPU、内存使用率。 如实例已达性能瓶颈,则需调整CoreDNS插件规格。 单击CoreDNS插件的“编辑”按钮,进入插件详情页。
CCE Turbo集群 CCE Turbo集群是基于云原生基础设施构建的云原生2.0容器引擎服务,具备软硬协同、网络无损、安全可靠、调度智能的优势,为用户提供一站式、高性价比的全新容器服务体验。 CCE Turbo集群提供了面向大规模高性能的场景云原生2.0网络,容器直接从VP
nginx-elb-svc.yaml 配置验证 登录ELB控制台,查看Service对应的ELB(本示例中名为james)。 单击ELB名称,并切换至“监控”,可以看到ELB的连接数为0。 使用kubectl命令行登录集群中的任意一个Nginx容器中,然后访问ELB的地址。 查询集群中的Nginx容器。
er/Containerd。Pod重建后sock文件重新挂载,可恢复正常。 通常K8S集群用户基于如下场景在容器中使用上述sock文件: 监控类应用,以DaemonSet形式部署,通过sock文件连接Docker/Containerd,获取节点容器状态信息。 编译平台类应用,通过
securityContext: allowPrivilegeEscalation: false 通过以下命令对容器内的/etc/hosts文件进行监控,如果该文件的大小异常,请采取相应告警或容器隔离措施。 find /var/lib/kubelet/pods/*/etc-hosts -size