检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群中需要安装GPU插件,且安装时注意要选择节点上GPU型号对应的驱动,具体请参见CCE AI套件(NVIDIA GPU)。
运行时 仅支持containerd 插件 集群中需要同时安装以下插件: Volcano调度器插件:1.10.5及以上版本 CCE AI套件(NVIDIA GPU)插件:2.0.5及以上版本 步骤一:开启GPU虚拟化 集群中需要同时安装CCE AI套件(NVIDIA GPU)插件和Volcano
为了实现这一目标,您需要为集群安装log-agent插件,该插件可以采集Kubernetes事件,并在“监控中心 > 事件”页面进行展示。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“事件”页签。
管理监控采集任务 您可以简单、方便地可视化管理采集任务,所有的配置均可在升级云原生监控插件时得到保留。 前提条件 集群中已安装云原生监控插件3.11.0及以上版本。
采集插件日志(NGINX Ingress控制器容器标准输出):需要安装NGINX Ingress控制器插件,并在插件中开启“日志采集”功能。
本文以对接第三方Prometheus实例为例,使用CCE云原生监控插件作为采集数据源端,接收数据的第三方Prometheus实例作为目的端。
根因分析 CCE会将用户的子网DNS信息配置到node节点上,coredns插件中也是使用该配置信息,因此会导致用户在节点容器内解析域名会偶发失败的状况。 解决方案 建议您通过修改coredns插件的存根域更新用户集群子网DNS配置,修改方法请参见为CoreDNS配置存根域。
GPU故障处理 前提条件 如需将GPU事件同步上报至AOM,集群中需安装云原生日志采集插件,您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件 当GPU显卡出现异常时,系统会将出现问题的GPU设备进行隔离,详细事件如表1所示。
优化NGINX Ingress插件配置 在插件管理中安装或编辑NGINX Ingress控制器插件,优化以下配置: 调整nginx-ingress-controller容器的资源限制。
可能原因一:云原生监控插件异常 请前往集群详情的“插件中心”页面,先检查插件云原生监控插件是否为“运行中”。 图1 检查插件运行状态 如果插件运行异常,可以根据云原生监控插件的实例的事件进行排查。
ICAgent和云原生日志采集插件比较 表1 ICAgent和云原生日志采集插件比较 采集工具 ICAgent 云原生日志采集插件 日志存储位置 LTS AOM 1.0 LTS AOM 2.0 支持采集内容 容器标准输出 容器内日志文件 节点日志文件 Kubernetes事件 容器标准输出
在逻辑多租等需强隔离场景,系统插件应该尽量运行在单独的节点或者节点池上,与业务Pod分离,降低集群中的提权攻击风险。因此您可以在系统插件安装页面,将节点亲和策略设置为“指定节点调度”或“指定节点池调度”。
问题检测 CCE节点故障检测插件(npd)中已包含节点时间同步检查项,您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。 问题根因 EulerOS和CentOS类型的节点存在由NTP引起的已知问题,其他类型的节点不涉及该问题。
约束与限制 本地持久卷仅在集群版本 >= v1.21.2-r0 时支持,且需要everest插件版本>=2.1.23,推荐使用>=2.1.23版本。
手动更新GPU节点驱动版本 一般情况下,您可以通过CCE AI套件(NVIDIA GPU)插件配置节点的驱动文件路径,节点重启后会自动安装驱动。您也可以手动更新驱动的方式进行更新。
集群网络模型选择及各模型区别 自研高性能商业版容器网络插件,支持容器隧道网络、VPC网络、云原生网络2.0网络模型: 集群创建成功后,网络模型不可更改,请谨慎选择。 容器隧道网络(Overlay):基于底层VPC网络构建了独立的VXLAN隧道化容器网络,适用于一般场景。
步骤三:插件选择 单击“下一步:插件选择”,选择创建集群时需要安装的插件。 图6 插件选择 基础功能 参数 说明 CCE容器网络插件 (Yangtse CNI) 集群默认安装的基础插件,为集群内的Pod提供网络连通、公网访问、安全隔离等网络能力。
类别 说明 容器存储接口 Out-of-Tree的形式,规定了标准的容器存储接口,可以允许存储供应商使用符合标准的自定义存储插件,通过PVC/PV的形式实现挂载,摒弃了以往需要将插件源码添加到Kubernetes代码仓库统一构建、编译、发布的方式。
需要安装 volcano 插件 参数名 取值范围 默认值 是否允许修改 作用范围 default-scheduler kube-scheduler: K8S 默认调度器 volcano: Volcano 增强调度器 kube-scheduler 允许 CCE Standard/CCE
若未安装CCE集群弹性引擎插件,请根据业务需求配置插件参数后单击“安装”,并等待插件安装完成。插件配置详情请参见CCE集群弹性引擎。 若已安装CCE集群弹性引擎插件,则可直接配置弹性伸缩策略。 配置节点池弹性伸缩策略。