检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何监控插件是否异常 集群接入网格后,会自动在集群中安装asm-mesh-controller插件,本文介绍如何配置告警监控该插件是否异常。 告警管理使用前提条件:已在主机安装ICagent,详情请参考安装ICAgent。更多告警操作请参考告警管理使用说明。 登录AOM华为云官网,在AOM产品简介下方单击“AOM1
中心”,单击“服务插件”页签。 单击“系统插件”页签,并选择待升级的目标插件,单击“更多 > 升级”。 选择所需要升级到的版本,勾选“我已知晓”,并单击确认。 服务重建 当插件状态异常且无法自动恢复时,可通过插件重建功能,删除之前的插件实例,再创建一个新的插件实例。 登录UCS控
侧导航栏中选择“插件中心”。 在“已安装插件”内找到huawei-npu插件,如果版本标签旁边显示“存在新版请升级”提示,表示该插件可升级。 在升级插件基本信息配置页面配置参数,并选择插件待升级的版本。 单击“升级”,即可升级huawei-npu插件。 卸载插件 登录UCS控制台
插件管理 kube-prometheus-stack插件 log-agent插件 metrics-server volcano huawei-npu插件 gpu-device-plugin e-backup插件 父主题: 单集群管理
3 } 单击“安装”后,返回“插件管理”页面查看已安装插件,插件状态为“运行中”,表明该插件已在当前集群中安装成功。 修改插件资源配额 登录集群控制台。 在左侧导航栏中单击“插件管理”,在已安装插件栏中单击E-Backup插件下的“编辑”按钮。 修改插件规格配置,相关参数说明请参见表1。
otel-collector 申请:200m 限制:1 申请:1Gi 限制:2Gi 安装log-agent插件 本地集群安装log-agent插件的具体操作请参见云原生日志采集插件。 父主题: 插件管理
安装指标采集插件 在创建FederatedHPA策略前,您需要为集群安装支持Metrics API的插件,以采集工作负载相关指标的变动。如果您已经安装了相应插件,可跳过该步骤。 选择插件 UCS提供两种插件以采集工作负载相关指标:Kubernetes Metrics Server
服务插件管理 服务Operator 系统插件 父主题: 云原生服务中心
云原生日志采集插件,单击“安装”。 在安装插件页面,设置“规格配置”。 表3 插件规格配置 参数 参数说明 插件规格 该插件可配置“小规格”、“大规格”或“自定义”规格。 实例数 选择上方插件规格后,显示插件中的实例数。 选择“自定义”规格时,您可根据需求调整插件实例数。 容器
GiB的存储卷,卸载插件时Grafana的存储卷不随插件被删除。 clusterProblemDetector:用于监控集群异常。 约束和限制 目前kube-prometheus-stack插件暂不支持UCS本地集群。 插件部署模式 kube-prometheus-stack插件在部署时支持Agent模式和Server模式。
ck插件接口,插件安装未成功原因含有“resource that already exists”字段。 原因分析 kube-prometheus-stack插件存在资源残留。 处理手段 可执行如下操作进行资源残留清理,并在清理后重新开启监控。 kubectl delete ns monitoring
本地集群如何扩容容器智能分析插件的存储磁盘? 问题描述 当容器智能分析插件(kube-prometheus-stack)所依赖的PVC存储中的磁盘写满时,prometheus-server-0 Pod的日志标准输出会出现“no space left on device”报错,此时
nvidia-{显卡型号}”标签,具体操作步骤请参见为节点添加标签/污点。 安装插件 登录UCS控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”。 在“可安装插件”中找到gpu-device-plugin,单击“安装”。 在安装插件页面,填写插件配置。 插件规格:可配置“默认”或“自定义”规格,请根据实际情况选择。
点,lifecycle插件将根据节点上负载的生命周期自动标记。 MaxScore默认值200.0相当于其他插件权重的两倍,当lifecycle插件效果不明显或与其他插件冲突时,需要关闭其他插件,或将MaxScore调大。 调度器重启后,lifecycle插件需要重新记录负载的变化
完成上述两条后,单击确定即可完成manage节点的扩容。 插件安装完成后,在已安装插件内单击metrics-server插件,可以看到具体的插件实例在集群内的部署情况。 升级插件 登录UCS内的集群控制台,在左侧导航栏里选择“插件管理”。 在“已安装插件”内,如果版本标签旁边显示“存在新版请升级
Controller插件,若未安装会导致Ingress处于“未就绪”状态。安装插件的具体操作请参见: 为CCE集群安装插件请参见通过控制台创建Nginx Ingress。 为本地集群安装插件请参见使用L7负载均衡Ingress-nginx。 为其他类型集群安装插件请参见开源社区文档Nginx
Kubernetes事件上报云日志服务(LTS) 集群未安装云原生日志采集插件 安装云原生日志采集插件时,可通过勾选采集Kubernetes事件,创建默认日志采集策略,采集所有事件上报到LTS。安装方法见:收集数据面日志 集群已安装云原生日志采集插件 登录云容器引擎(CCE)控制台,单击集群名称进入集群,选择左侧导航栏的“日志管理”。
服务Operator 服务管理类插件用来管理服务实例的生命周期,由服务提供商提供,当集群首次部署对应服务实例时,会自动安装对应服务的管理插件,您可通过“服务插件 > 服务Operator”页面查看各个集群中部署的服务管理类插件。 操作场景 服务Operator是OSC管理的最大粒
约束与限制 华为云集群开启监控之前,有可能已经安装了kube-prometheus-stack插件,若该插件处于“安装中”、“升级中”、“删除中”和“回滚中”状态时,不允许开启监控。插件的状态说明请参见插件状态说明。 前提条件 已将华为云集群注册到UCS中,具体操作请参见华为云集群。 操作步骤
集群ID}。 使用云原生日志采集插件采集日志 查看并配置日志采集策略。 登录容器舰队控制台,单击集群名称进入集群,选择左侧导航栏的“日志中心”。 右上角单击“日志采集策略”,将显示当前集群所有上报LTS的日志策略。 图1 查看日志策略 若安装插件时勾选了采集标准输出和采集Kube