检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
容器智能分析 集群因插件资源残留开启监控失败怎么办? 集群因策略拦截开启监控失败怎么办? 如何修改kube-state-metrics组件的采集配置?
容器智能分析 容器智能分析概述 为集群开启监控 容器洞察 健康诊断 仪表盘 父主题: 可观测性
CIAOperations(建议)权限的用户可进行容器智能分析相关的操作。 本地集群和附着集群目前只支持将指标和事件上报到北京四Region的AOM 2.0和LTS服务;华为云集群目前只支持北京四、上海一Region启用容器智能分析服务。 使用流程 容器智能分析的使用流程如图1所示。 图1 容器智能分析使用流程 父主题:
容器洞察概述 查看舰队总览 查看集群情况 查看集群内节点情况 查看集群内工作负载情况 查看集群内Pod情况 查看集群内事件情况 父主题: 容器智能分析
”、“不可用”、“安装失败”、“删除失败”和“未知”状态时,不允许修改集群监控配置。 操作步骤 登录UCS控制台,在左侧导航栏中选择“容器智能分析”。 选择一个容器舰队或者未加入舰队的集群。 图1 选择舰队或未加入舰队的集群 单击“容器洞察 > 集群总览”页签查看已开启监控的集群
本地集群如何扩容容器智能分析插件的存储磁盘? 问题描述 当容器智能分析插件(kube-prometheus-stack)所依赖的PVC存储中的磁盘写满时,prometheus-server-0 Pod的日志标准输出会出现“no space left on device”报错,此时普罗
容器洞察概述 容器洞察提供基于Kubernetes原生类型的容器监控能力,全面监控集群的健康状态和负荷程度。 支持集群、节点、工作负载的资源全景。 支持节点的资源占用、工作负载的资源消耗。 展示近一小时的CPU/内存指标。 父主题: 容器洞察
该插件可以采集Kubernetes事件,并在“容器洞察 > 事件”页面进行展示。 功能入口 登录UCS控制台。 在左侧导航栏中选择“容器智能分析”,在“容器洞察 > 集群总览”页面的集群统计列表中,单击集群名称,选择“事件”。 查看集群内事件详情 事件页面分为两个页签:“概览”
在弹出的“卸载插件”按钮中选择“是”,即可卸载该插件。 昇腾芯片驱动安装 请确保昇腾芯片已插入到节点上,确认设备型号,并从昇腾官方社区下载设备驱动,以及参考驱动安装指导进行安装: 安装完成后,执行以下命令,可查看节点的/dev目录下所有的芯片设备。 ls -l /dev/davinci* 执行如下命令,查看驱动加载是否成功。
健康诊断 概述 健康诊断是容器智能分析的一个重要功能,用于诊断集群的健康状态。开通容器智能分析后,健康诊断将基于集群的配置和kube-prometheus-stack插件上报至AOM的指标,从集群、节点、工作负载、核心插件、外部依赖的维度出发,提供全面的集群健康状态检查。同时,该
com/kubernetes/kube-state-metrics/blob/v2.2.3/docs/cli-arguments.md 父主题: 容器智能分析
集群--XGPU设备显存使用率 集群--XGPU设备算力使用率 节点--XGPU设备显存使用率 节点--XGPU设备算力使用率 节点--XGPU设备数量 节点--XGPU设备显存分配量 GPU卡--XGPU设备显存使用率 GPU卡--XGPU设备显存分配量 GPU卡--XGPU设备显存分配率
为华为云集群开启监控 为本地集群开启监控 为附着集群开启监控 为多云集群开启监控 为伙伴云集群开启监控 修改监控配置 关闭监控 父主题: 容器智能分析
8s事件日志进行采集与转发。 关于插件的详细说明,请参考kube-prometheus-stack插件和云原生日志采集插件章节。 目前容器智能分析支持监控华为云集群、附着集群、本地集群、多云集群。在开启监控时,各个集群的参数配置存在差异,因此,本小节将分别介绍这五种集群的开启操作。
、网络流入/流出速率、磁盘使用率等。 页面中容器组、Pod以及实例是指同一个概念。 功能入口 登录UCS控制台。 在左侧导航栏中选择“容器智能分析”,在“容器洞察 > 集群总览”页面的集群统计列表中,单击集群名称,选择“Pod”。 页面呈现了所有实例的综合信息,如需深入了解单个实
关闭监控 本章节讲述为集群关闭监控的操作流程。 约束与限制 关闭监控前,请仔细阅读以下注意事项,避免数据丢失或者相关资源继续产生费用。 kube-prometheus-stack插件处于“安装中”、“升级中”、“删除中”和“回滚中”时不允许关闭监控。 kube-prometheu
效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 init容器不支持进行GPU虚拟化。 对于单张GPU卡: 最多虚拟化为20个GPU虚拟设备。 最多调度20个使用隔离能力的Pod。
未加入舰队集群”,查看全部未加入舰队的集群、以及集群中的节点、负载总览信息。 查看舰队内集群总览 功能入口 登录UCS控制台,在左侧导航栏中选择“容器智能分析”,选择一个容器舰队。 单击“容器洞察 > 集群总览”页签查看已开启监控的集群,列表中显示容器舰队内所有集群的CPU使用率、CPU分配率、内存分配率和使用率等指标。
查看集群情况 查看集群情况流程 在“容器洞察 > 集群总览”页面的集群统计列表中,单击集群名称跳转至单个集群的智能分析页面。本页面分为五个页签,分别为: “集群”页签:具体信息请参见查看集群详情。 “节点”页签:具体信息请参见查看集群内节点详情。 “工作负载”页签:具体信息请参见查看集群内工作负载详情。
启监控失败。 处理手段 请在指定集群的策略实例中,取消针对kube-system和monitoring命名空间的拦截策略。 父主题: 容器智能分析