检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
约束与限制 华为云集群开启监控之前,有可能已经安装了kube-prometheus-stack插件,若该插件处于“安装中”、“升级中”、“删除中”和“回滚中”状态时,不允许开启监控。插件的状态说明请参见插件状态说明。 前提条件 已将华为云集群注册到UCS中,具体操作请参见华为云集群。 操作步骤
Kubernetes事件上报云日志服务(LTS) 集群未安装云原生日志采集插件 安装云原生日志采集插件时,可通过勾选采集Kubernetes事件,创建默认日志采集策略,采集所有事件上报到LTS。安装方法见:收集数据面日志 集群已安装云原生日志采集插件 登录云容器引擎(CCE)控制台,单击集群名称进入集群,选择左侧导航栏的“日志管理”。
略,并上报所有命名空间下的Kubernetes事件到云日志服务(LTS)。 (仅本地集群)为本地集群云原生日志采集插件授权。详细步骤请参见本地集群安装云原生日志插件前置授权。 (仅本地集群)页面单击“立即开启”,在弹窗中进行日志采集配置与网络配置,等待约30秒后,页面自动跳转。 表1
集群ID}。 使用云原生日志采集插件采集日志 查看并配置日志采集策略。 登录容器舰队控制台,单击集群名称进入集群,选择左侧导航栏的“日志中心”。 右上角单击“日志采集策略”,将显示当前集群所有上报LTS的日志策略。 图1 查看日志策略 若安装插件时勾选了采集标准输出和采集Kube
步骤二:安装插件 如果您的集群中已安装符合基础规划的插件,您可以跳过此步骤。 更改驱动版本后,需要重启节点才能生效。 登录UCS控制台,单击集群名称进入集群,在左侧导航栏中选择“插件管理”,查看“已安装插件”中是否存在volcano插件与gpu-device-plugin插件。 若未
配置、指标采集配置和事件采集配置均支持修改。 当事件采集配置从开启置为关闭,系统将会删除log-agent插件。 约束与限制 kube-prometheus-stack插件处于“安装中”、“升级中”、“删除中”、“回滚中”、“回滚失败”、“不可用”、“安装失败”、“删除失败”和“未知”状态时,不允许修改集群监控配置。
插件全部实例状态都在运行中,插件正常使用 安装中 插件正在安装中 升级中 插件正在更新中 回滚中 插件正在回滚中 回滚失败 插件回滚失败,可重试回滚或卸载后重新安装 删除中 插件正在删除中 部分就绪 插件下只有部分实例状态为运行中,插件部分功能可用 不可用 插件状态异常,插件不可使用。可单击插件名称查看实例异常事件
kube-prometheus-stack插件处于“安装中”、“升级中”、“删除中”和“回滚中”时不允许关闭监控。 kube-prometheus-stack插件处于“运行中”、“部分就绪”和“安装失败”时关闭监控:对于华为云集群,系统将会更新kube-prometheus-stack插件以关闭数据上报功
NPU节点标签 创建NPU节点后,安装huawei-npu插件,需要给节点添加标签“accelerator/huawei-npu”,标签值可为空。 添加NPU节点标签 依次单击“本地集群>节点管理>选择节点>标签与污点管理”。 选择NPU节点,添加标签“accelerator/huawei-npu”,标签值可为空。
位问题均有帮助。如果您需要监控集群内事件,可以前往“容器洞察 > 事件”页面查看。为了实现这一目标,您需要为集群安装log-agent插件,该插件可以采集Kubernetes事件,并在“容器洞察 > 事件”页面进行展示。 功能入口 登录UCS控制台。 在左侧导航栏中选择“容器智能分析”,在“容器洞察
集群版本是否超期 集群运维能力 集群kube-prometheus-stack插件状态是否正常 集群log-agent插件状态是否正常 集群npd插件状态是否正常 集群配置 安全组配置是否正确 核心插件 coredns插件状态 coredns近24小时cpu使用率最大值是否超过80% co
任务。插件的详细配置可参考原子插件。 其中,UCS滚动升级插件支持镜像创建和YAML创建两种部署方式: 镜像创建 选择镜像创建时,需要选中对应的舰队命名空间、工作负载与容器。部署时,流水线上的镜像将直接替换对应命名空间、工作负载与容器中的镜像。 图3 镜像创建 YAML创建 在代
需要创建弹性扩缩容策略的集群至少有一个实例, 如果没有实例则会自动进行扩容。 如果集群内未安装系统指标采集插件,负载伸缩策略会无法生效。 目前本地集群仅支持metrics-server插件来提供Metrics API,未来会开放更多插件供选择。 操作步骤 登录UCS集群控制台。 如果是未加入舰队集群,直接单击集群名即可进入集群控制台。
DISTRIB_DESCRIPTION="Ubuntu 20.04.4 LTS" 检查命令:uname -r 5.15.0-1017-aws Cilium是一种网络插件,支持BGP、eBPF等网络协议,更多内容请参见Cilium官方文档。 多云集群采用containerd作为容器引擎,如果节点操作系统已经
如何修改kube-state-metrics组件的采集配置? 问题描述 kube-prometheus-stack插件的kube-state-metrics组件负责将Prometheus的metrics数据格式转换成K8s API接口能识别的格式。kube-state-metri
策略中心运行异常怎么办? 策略中心运行异常的可能原因为Gatekeeper插件损坏,或者被删除。根据失败情况请使用以下方案排查修复: 检查gatekeeper-system命名空间中gatekeeper-controller-manager、gatekeeper-audit这两个
安全维护。 更新KubeConfig文件的操作仅适用于附着集群与伙伴云集群。 前提条件 集群未加入任何舰队。 集群安装了anp-agent插件,以保证新的KubeConfig文件能与集群完成一次连通性探测。 操作步骤 登录UCS控制台,在左侧导航栏中选择“容器舰队”。 在左侧导航
asm-iam-authenticator使用参考 asm-iam-authenticator作为k8s client端的认证插件,主要提供了generate-kubeconfig和token两个子命令。 A tool to authenticate to ASM using HuaweiCloud
hce2.aarch64 裸机: 5.10.0-136.12.0.86.r1526_92.hce2.aarch64 Cilium是一种网络插件,支持BGP、eBPF等网络协议,详细了解Cilium请参见Cilium官方文档。 HCE OS 2.0(华为云欧拉操作系统)是基于华为开
集群开启监控时,接口返回报错,报错信息中含有gatekeeper字段。 集群开启监控请求下发成功,但是监控状态一直显示“安装中”,超时后显示“安装失败”,前往集群中检查插件的Pod状态,Pod的事件中含有gatekeeper字段。 原因分析 如果开启监控的集群在策略中心配置了拦截级别的策略规则,则可能导致开启监控失败。