将集群中对应的cce节点进行数据清理。 限制每个容器的CPU和内存限制配额值。 对集群进行节点扩容。 您也可以重启节点,请至ECS控制台对节点进行重启,重启方法请参见如何重启弹性云服务器?。 增加节点,将高内存使用的业务容器分开部署。 重置节点,详情请参见重置节点。 节点恢复为可用后,工作负载即可恢复正常。
若在NPU驱动安装完成前就重启了节点,可能导致驱动安装失败,节点重启后集群“节点管理”页面对应的节点会显示“驱动未就绪”。此时需要先卸载该节点上的NPU驱动,再重启 npu-driver-installer Pod,才能重新安装NPU驱动,按上述步骤确认驱动安装完成后再重启节点。驱动卸载方式请参见NPU驱动卸载。
说明 容器数 个 Pod中的容器总数 运行中容器数 个 Pod中正在运行的容器个数 Pod状态 个 处在不同状态下的Pod个数 容器重启次数 次 容器被重启的次数 CPU使用量 Cores Pod CPU使用量 CPU 有效率&使用率 百分比 有效率:使用量/请求量;使用率:使用量/总量
导致Service/Ingress访问不通。 在集群升级等需要重启控制节点的场景,所做修改会被CCE侧重置。 重新创建或更新Service/Ingress。 通过ELB的控制台修改CCE创建的监听器名称、访问控制、超时时间、描述等基本配置 如果监听器被删除,在集群升级等需要重启控制节点的场景,所做修改会被CCE侧重置。
通过控制台创建工作负载时,您可在创建工作负载页面的“高级配置 > 网络配置”中设置Pod固定IP。 是否开启固定IP:开启固定IP后,Pod每次重启都不会改变Pod IP。 回收时间间隔:Pod删除后相关IP地址的保留时长。在此时间段内,原Pod IP地址无法被其他Pod使用。 通过kubectl命令行设置
e}" done fi depmod ${sys_version} } upgrade_kmod 执行完成后,重启虚拟机。 相关链接 集群节点高危操作 父主题: 节点运行
/opt/cloud/cce/kubernetes/kubelet/kubelet_config.yaml 重启kubelet。 systemctl restart kubelet 确认kubelet新进程已启动,且重启后的kubelet.log日志中无VolumeSubpath=false相关字段。 相关链接
检查到本次升级涉及1.17 欧拉2.8 Arm镜像,该版本镜像存在缺陷,其上docker重启后将影响"docker exec"命令,升级集群版本时将触发docker版本更新,触发docker重启,因此存在建议: 建议您提前排空、隔离该节点后进行集群升级。 建议您升级至1.19及更高
如何设置CCE集群中的VPC网段和子网网段? VPC中的子网网段一旦创建,便无法更改。创建虚拟私有云时,请预留一定的VPC网段和子网网段资源,避免后续无法扩容。 子网网段可在“创建虚拟私有云”页面的“子网配置 > 子网网段”中进行设置。在设置选项下可查看到“可用IP数”。 容器网
DNAT网关(DNAT) 操作场景 “DNAT网关”可以为集群节点提供网络地址转换服务,使多个节点可以共享使用弹性IP。 NAT网关与弹性IP方式相比增强了可靠性,弹性IP无需与单个节点绑定,任何节点状态的异常不影响其访问。访问方式由公网弹性IP地址以及设置的访问端口组成,例如“10
/home/catalina.sh mycontainer:/ usr/local/tomcat/bin/catalina.sh 重启容器。 docker restart container_id 重启后查看日志中的时区是否与节点同一时区。 查看方法:单击工作负载名称进入工作负载详情页,单击右上角的“日志
节点资源不足 当节点资源(如内存、CPU等)不足时,集群可能会驱逐部分Pod并将其调度到其他资源充足节点,从而触发容器重建。 节点重启或故障 若由于某些原因重启节点,节点上的容器可能会被销毁并在其他可用节点上重建。当节点发生故障时,集群会检测到该节点不可用,该节点上的容器将在其他可用节点上进行重建。
集群运行 当集群状态为“不可用”时,如何排查解决? CCE集群如何重置或重装? 如何确认已创建的集群是否为多控制节点模式? 是否可以直接连接CCE集群的控制节点? CCE集群删除之后相关数据能否再次找回? 为什么CCE集群界面的节点磁盘监控看起来不准确? 如何修改CCE集群名称?
"} >= 1 节点CRI频繁重启 检查CRI是否频繁重启 指标类 云原生监控插件 节点故障检测插件 problem_gauge{type="FrequentCRIRestart"} >= 1 节点Docker频繁重启 检查Docker是否频繁重启 指标类 云原生监控插件 节点故障检测插件
监控日志 工作负载的“事件”保存多长时间? 容器监控的内存使用率与实际弹性伸缩现象不一致 父主题: 工作负载
问题场景二:cce-pause版本异常 检测到当前kubelet依赖的pause容器镜像版本非cce-pause:3.1,继续升级将会导致批量Pod重启,当前暂不支持升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查
安全配置概述 基于安全责任共担模式,CCE服务确保集群内master节点和CCE自身组件的安全,并在集群、容器级别提供一系列的层次化的安全能力,而用户则负责集群Node节点的安全并遵循CCE服务提供的安全最佳实践,做好安全配置和运维。 CCE服务的应用场景 云容器引擎是基于业界主
网络 虚拟私有云 集群下控制节点和用户节点使用的虚拟私有云。 参数名 取值范围 默认值 是否允许修改 作用范围 HostNetwork.vpc 用户租户下存在的VPC ID 无 支持初始化时配置,不支持后续修改 CCE Standard/CCE Turbo 获取方法如下: 方法1
网络 网络概述 容器网络 服务(Service) 路由(Ingress) DNS 集群网络配置 容器如何访问VPC内部网络 从容器访问公网 网络管理最佳实践
扩展集群VPC网段 操作场景 在创建集群时会选择集群位于某个VPC内,如果VPC规划太小出现没有足够可用IP时,您可以采用VPC扩展网段满足业务扩容需求。本文介绍如何使用VPC扩展网段扩充集群网段。 约束与限制 仅支持v1.21及以上版本的CCE Standard集群和CCE Turbo集群。
您即将访问非华为云网站,请注意账号财产安全