检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
健康诊断 概述 健康诊断是容器智能分析的一个重要功能,用于诊断集群的健康状态。开通容器智能分析后,健康诊断将基于集群的配置和kube-prometheus-stack插件上报至AOM的指标,从集群、节点、工作负载、核心插件、外部依赖的维度出发,提供全面的集群健康状态检查。同时,该
metadata: labels: app: gpu-app spec: containers: - name: container-1 image: <your_image_address> # 请替换为您的镜像地址
replicas是2,如果maxSurge和maxUnavailable都为默认值25%,那实际升级过程中,maxSurge允许最多3个Pod存在(向上取整,2*1.25=2.5,取整为3),而maxUnavailable则不允许有Pod Unavailable(向上取整,2*0.75=1.5,
projectID String 项目id projectName String 项目名 zone String 地区 taints Array of Taint objects 污点 IsDownloadedCert Boolean 是否已经下载过证书 policyId String
下面是一个示例策略定义,它要求所有在约束中描述的标签都必须存在。 apiVersion: templates.gatekeeper.sh/v1 kind: ConstraintTemplate metadata: name: k8srequiredlabels spec: crd: spec:
舰队或集群关联权限时出现异常事件的排查思路大致可根据报错信息进行定位,如表1所示。 表1 报错信息说明 报错信息 说明 推荐排查项 ClusterRole failed reason:Get \"https://kubernetes.default.svc.cluster.local/apis/rbac
集群监控概述 为集群开启监控才能确保您的集群处于实时守护状态。开启过程中,系统会自动为集群安装kube-prometheus-stack插件(简称普罗)和log-agent插件。kube-prometheus-stack通过使用Prometheus-operator和Promet
查看舰队总览 查看舰队总览。您可以选择一个容器舰队或未加入舰队的集群,查看所选范围内已开启监控的集群、以及集群中的节点、负载总览信息。 本小节操作指导均以查看容器舰队的总览信息为例,若您需要查看未加入舰队集群的总览信息,请在容器洞察页面选择“其他 > 未加入舰队集群”,查看全部未
查看集群内事件情况 Kubernetes事件涵盖了集群的运行状态和各类资源的调度情况,对运维人员日常观察资源的变更以及定位问题均有帮助。如果您需要监控集群内事件,可以前往“容器洞察 > 事件”页面查看。为了实现这一目标,您需要为集群安装log-agent插件,该插件可以采集Kubernetes事件,并在“容器洞察
memory requests cpu memory k8scontainerratios 合规 L1 Pod ratio:字符串 cpuRatio:字符串 exemptImages:字符串数组 k8scontainerrequests 合规 L1 Pod cpu:字符串 memory:字符串
"projects": [ { "domain_id": "65382450e8f64ac0870cd180d14e684b", "is_domain": false, "parent_id": "
K。。 关联类型 选择关联的UCS资源粒度,当前支持容器舰队。 容器舰队 选择UCS中开启联邦功能的集群舰队。 环境级别 环境类型,内置了开发环境、测试环境、预发环境和生产环境四种类型。 描述 环境的描述信息。可选填。 单击“确定”,完成环境创建。创建成功后将自动跳转至环境详情页面。
仪表盘 仪表盘可将不同图表展示到同一个屏幕上,通过不同的仪表形式来展示资源数据,例如,曲线图、数字图等,进而全面、深入地掌握监控数据。 查看/切换视图 选择一个容器舰队或者未加入舰队的集群。 图1 选择舰队或未加入舰队的集群 选择“仪表盘”页签,默认展示集群视图。 设置查看视图的
容器洞察概述 容器洞察提供基于Kubernetes原生类型的容器监控能力,全面监控集群的健康状态和负荷程度。 支持集群、节点、工作负载的资源全景。 支持节点的资源占用、工作负载的资源消耗。 展示近一小时的CPU/内存指标。 父主题: 容器洞察
本地集群如何扩容容器智能分析插件的存储磁盘? 问题描述 当容器智能分析插件(kube-prometheus-stack)所依赖的PVC存储中的磁盘写满时,prometheus-server-0 Pod的日志标准输出会出现“no space left on device”报错,此时
查看集群内Pod情况 如果您需要监控Pod的资源使用情况,可以前往容器洞察中的Pod页面查看。该页面提供了指定集群下所有Pod的综合信息,以及单个Pod的详细监控数据,包括CPU/内存使用率、网络流入/流出速率、磁盘使用率等。 页面中容器组、Pod以及实例是指同一个概念。 功能入口
关闭监控 本章节讲述为集群关闭监控的操作流程。 约束与限制 关闭监控前,请仔细阅读以下注意事项,避免数据丢失或者相关资源继续产生费用。 kube-prometheus-stack插件处于“安装中”、“升级中”、“删除中”和“回滚中”时不允许关闭监控。 kube-prometheu
查看集群情况 查看集群情况流程 在“容器洞察 > 集群总览”页面的集群统计列表中,单击集群名称跳转至单个集群的智能分析页面。本页面分为五个页签,分别为: “集群”页签:具体信息请参见查看集群详情。 “节点”页签:具体信息请参见查看集群内节点详情。 “工作负载”页签:具体信息请参见查看集群内工作负载详情。
集群因策略拦截开启监控失败怎么办? 问题现象 集群开启监控时,接口返回报错,报错信息中含有gatekeeper字段。 集群开启监控请求下发成功,但是监控状态一直显示“安装中”,超时后显示“安装失败”,前往集群中检查插件的Pod状态,Pod的事件中含有gatekeeper字段。 原因分析
修改监控配置 集群开启监控成功后,还可以修改监控配置,网络配置、指标采集配置和事件采集配置均支持修改。 当事件采集配置从开启置为关闭,系统将会删除log-agent插件。 约束与限制 kube-prometheus-stack插件处于“安装中”、“升级中”、“删除中”、“回滚中”