检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE Turbo集群容器网络扩展指标 Prometheus插件平滑迁移实践 父主题: 云原生观测
前提条件 集群中已安装云原生监控插件插件。 集群中已安装CCE AI套件(NVIDIA GPU)插件,且插件版本不低于2.0.10。 如果需要监控GPU虚拟化监控指标,集群中需要已安装Volcano调度器插件,且插件版本不低于1.10.5。
判断方法 如果集群未安装CCE AI套件(NVIDIA GPU)插件或插件版本低于2.0.0,则不涉及该漏洞。 CCE AI套件(NVIDIA GPU)插件老版本命名为:gpu-beta、gpu-device-plugin。
节点系统参数检查异常处理 残留packageversion检查异常处理 节点命令行检查异常处理 节点交换区检查异常处理 NGINX Ingress控制器插件升级检查异常处理 云原生监控插件升级检查异常处理 Containerd Pod重启风险检查异常处理 GPU插件关键参数检查异常处理
通过插件部署dcgm-exporter组件 通过插件部署核心组件dcgm-exporter 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到CCE AI套件(NVIDIA GPU)插件,单击“安装”。
使用成本洞察期间,要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 操作入口 登录CCE控制台,单击左侧导航栏中的“云原生成本治理”。 图1 云原生成本治理 查看部门分析模块。
59 GPU插件关键参数检查异常处理 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。
在左侧导航栏中选择“插件中心”,在CoreDNS下单击“编辑”,进入插件详情页。 在“参数配置”下编辑扩展参数,在plugins字段添加以下内容。
Nginx Ingress插件镜像:Nginx Ingress插件的镜像地址可通过已安装插件实例的YAML文件查看。
在控制台上方导航栏,单击“购买集群”,填写集群配置并单击“下一步:插件选择”。 在“插件选择”页面中,选择安装“云原生日志采集插件”并单击“下一步:插件配置”。 在“插件配置”页面中,在“云原生日志采集插件”配置中勾选“kubernetes审计日志”。
当前CCE插件市场提供了云原生监控插件用于Kubernetes集群的监控。 华为云AOM云服务基于Prometheus监控生态,提供了托管式的Prometheus实例 for CCE,适合需要对容器服务集群及其上面运行的应用进行一体化监控场景。
API API URL说明 集群管理 节点管理 节点池管理 存储管理 插件管理 集群升级 配额管理 API版本信息 标签管理 配置管理 模板管理 插件实例字段说明
运行时 仅支持containerd 插件 集群中需要同时安装以下插件: Volcano调度器插件:1.10.5及以上版本 CCE AI套件(NVIDIA GPU)插件:2.0.5及以上版本 约束与限制 单个GPU卡最多虚拟化成20个GPU虚拟设备。
在安装插件页面,选择插件规格,并配置相关参数。
Kubernetes只提供了如何为Pod提供网络的机制,并不直接负责配置Pod网络;Pod网络的具体配置操作交由具体的容器网络插件实现。容器网络插件负责为Pod配置网络并管理容器IP地址。 当前CCE支持如下容器网络模型。
在控制台上方导航栏,单击“购买集群”,填写集群配置并单击“下一步:插件选择”。 在“插件选择”页面中,选择安装“云原生日志采集插件”并单击“下一步:插件配置”。 在“插件配置”页面中,在“云原生日志采集插件”配置中勾选“控制面组件日志”。
插件升级配置:此处列出了您的集群中已安装的插件。在集群升级过程中系统会自动升级已选择的插件,以兼容升级后的集群版本,您可以单击插件右侧的“配置”重新定义插件参数。
步骤一:安装云原生监控插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 建议您关注以下配置,其他配置可按需进行设置。详情请参见云原生监控插件。
通过控制台获取华为云Prometheus监控数据 在集群中安装云原生监控插件,采集Prometheus监控数据。 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“插件中心”页面右侧找到云原生监控插件,单击“安装”。
前提条件 使用CustomedHPA策略必须安装CCE容器弹性引擎,若该插件版本低于1.2.11,则必须安装prometheus插件;若插件版本大于或等于1.2.11,则需要安装能够提供Metrics API的插件,您可根据集群版本和实际需求选择其中之一: Kubernetes Metrics