检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
thinpool磁盘空间耗尽导致容器或节点异常时,如何解决? 问题描述 当节点上的thinpool磁盘空间接近写满时,概率性出现以下异常: 在容器内创建文件或目录失败、容器内文件系统只读、节点被标记disk-pressure污点及节点不可用状态等。 用户可手动在节点上执行docker
兼容性风险检查异常处理 检查项内容 请您阅读版本兼容性差异,并确认不受影响。补丁升级不涉及版本兼容性差异。 版本兼容性差异 版本升级路径 版本差异 建议自检措施 v1.23/v1.25 升级至v1.27 容器运行时Docker不再被推荐使用,建议您使用Containerd进行替换,
CCE集群纳管节点时的常见问题及排查方法? 概述 本文主要介绍纳管/添加已有的ECS实例到CCE集群的常见问题。 纳管时,会将所选弹性云服务器的操作系统重置为CCE提供的标准镜像,以确保节点的稳定性,请选择操作系统及重置后的登录方式。 所选弹性云服务器挂载的系统盘、数据盘都会在纳管时被格式化
更新弹性伸缩配置 开启弹性伸缩功能可根据弹性伸缩策略自动伸缩,否则只能手动修改节点池下的节点数量。 约束与限制 为保证节点池弹性伸缩功能的正常使用,需要在集群中安装CCE集群弹性引擎。 更新弹性伸缩配置 登录CCE控制台,单击集群名称进入集群。 单击左侧导航栏的“节点管理”,在目标节点池所在行右上角单击
组调度(Gang) 组调度(Gang)满足了调度过程中“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件
工作负载异常:实例驱逐异常(Evicted) 驱逐原理 当节点出现异常时,为了保证工作负载的可用性,Kubernetes会通过驱逐机制(Eviction)将该节点上的Pod调离异常节点。 目前Kubernetes中存在两种Eviction机制,分别由kube-controller-manager
产品优势 云容器引擎的优势 云容器引擎是基于业界主流的Docker和Kubernetes开源技术构建的容器服务,提供众多契合企业大规模容器集群场景的功能,在系统可靠性、高性能、开源社区兼容性等多个方面具有独特的优势,满足企业在构建容器云方面的各种需求。 简单易用 通过WEB界面一键创建
存储基础知识 Volume(卷) 容器中的文件在磁盘上是临时存放的,这给容器中运行的较重要的应用程序带来如下两个问题: 当容器重建时,容器中的文件将会丢失。 当在一个Pod中同时运行多个容器时,容器间需要共享文件。 Kubernetes抽象出了Volume(卷)来解决以上两个问题。
诊断项及修复方案 集群诊断项及修复方案 集群维度 集群诊断场景 诊断项 是否需要开通监控中心 修复方案 集群资源规划能力 集群Master节点是否高可用 是 集群为单控制节点或者存在控制节点异常,当再有控制节点故障时,集群将不可用,进而会影响集群中运行服务的可靠性。提升服务韧性建议使用高可用集群或者修复节点异常
修改节点进程 ID数量上限kernel.pid_max 背景信息 进程 ID(PID)是节点上的一种基础资源,容易在尚未超出其它资源约束的时候触及进程ID数量上限,进而导致节点不稳定。 您可以根据实际业务需求调整进程ID数量上限。 默认kernel.pid_max说明 CCE在2022
节点规格(flavor)说明 不同区域支持的节点规格(flavor)不同,且节点规格存在新增、售罄下线等情况,建议您在使用前登录CCE控制台,在创建节点界面查看您需要的节点规格是否支持。 CCE Standard集群 CCE集群只支持2U4G以上的规格,建议您通过控制台查询节点规格
CCE节点故障检测插件版本发布记录 表1 CCE节点故障检测插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 1.19.11 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复部分问题 0.8.10 1.19.8 v1.21 v1.23
集群外部访问Ingress异常 Ingress基于七层的HTTP和HTTPS协议进行转发,是集群流量的入口,可以通过域名和路径对访问做到更细粒度的划分。集群在添加Ingress后,可能会出现无法正常访问的情况,本文提供添加Ingress失败或无法正常访问的通用排查思路,帮助您找到问题所在
节点伸缩原理 HPA是针对Pod级别的,可以根据负载指标动态调整副本数量,但是如果集群的资源不足,新的副本无法运行的情况下,就只能对集群进行扩容。 CCE集群弹性引擎是Kubernetes提供的集群节点弹性伸缩组件,根据Pod调度状态及资源使用情况对集群的节点进行自动扩容缩容,同时支持多可用区
使用延迟绑定的云硬盘(csi-disk-topology)实现跨AZ调度 应用现状 云硬盘使用在使用时无法实现跨AZ挂载,即AZ1的云硬盘无法挂载到AZ2的节点上。有状态工作负载调度时,如果使用csi-disk存储类,会立即创建PVC和PV(创建PV会同时创建云硬盘),然后PVC绑定
使用Kubectl命令操作集群 kubectl kubectl是Kubernetes集群的命令行工具,您可以将kubectl安装在任意一台机器上,通过kubectl命令操作Kubernetes集群。 CCE集群的kubectl安装请参见通过kubectl连接集群。连接后您可以执行kubectl
(停止维护)Kubernetes 1.9及之前版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.9及之前版本所做的变更说明。 表1 v1.9及之前版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.9.10-r2
(停止维护)Kubernetes 1.9及之前版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.9及之前版本所做的变更说明。 表1 v1.9及之前版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.9.10-r2
Volcano调度器版本发布记录 表1 Volcano调度器版本记录 插件版本 支持的集群版本 更新特性 1.15.8 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 支持NPU双DIE亲和调度能力 1.15.6 v1.23 v1.25 v1.27 v1.28
云原生混部概述 随着云原生技术迅速发展,海量应用正在走向云原生化。从2021年到2022年,Kubernetes集群中的云原生应用总数同比增长30%+,Kubernetes正在成为云时代的“操作系统”。但随着进一步调研发现,应用部署在Kubernetes集群后,大部分用户节点的CPU