检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题根因 EulerOS 4.18版本内核存在调度相关问题,使用CPU cgroup场景下,设置cfs bandwidth,并触发CPU带宽管控,会概率性触发warn级别告警打印,该流程会持有调度的rq锁,跟其他进程发生死锁(x86_64下为ABBA锁,aarch64下为AA锁)。
节点异常立即触发告警 登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点 节点重启 CCE 节点重启立即触发告警 登录集群查看告警节点状态,并确保节点正常启动可用,关注重启原因 节点kubelet故障 CCE 节点异常立即触发告警 登录集
应用服务网格(Application Service Mesh,简称ASM)是基于开源Istio推出的服务网格平台,它深度、无缝对接了企业级Kubernetes集群服务云容器引擎(CCE),在易用性、可靠性、可视化等方面进行了一系列增强,可为客户提供开箱即用的上手体验。 为模拟实
可请参见CCE事件列表。 ScalingReplicaSet 触发方式 立即触发:只要事件出现即发生告警。 累计触发:在指定的监控周期内,累计次数满足数值要求,才会发生告警。 选择“累计触发”,并设置监控周期为“5分钟”,累计次数为“> 3”。 告警等级 根据重要性选择告警等级,
业务容器内存使用超过容器的内存限制量时,触发cgroup OOM,被系统内核终止。容器cgroup OOM在CentOS 7会偶现触发ext4文件系统卡死,ext4/jbd2会因为死锁而永远挂起。在文件系统上执行I/O的所有任务都将受到影响。 解决方法 临时解决方案:该问题触发后可以通过重启节点临时恢复。
高危操作一览 业务部署或运行过程中,用户可能会触发不同层面的高危操作,导致不同程度上的业务故障。为了能够更好地帮助用户预估及避免操作风险,本文将从集群/节点、网络与负载均衡、日志、云硬盘多个维度出发,为用户展示哪些高危操作会导致怎样的后果,以及为用户提供相应的误操作解决方案。 集群/节点
无 是 否 否 当节点实际资源使用率超过高水位线时,触发离线Pod驱逐 否 是 是 当节点实际资源使用率超过高水位线并且节点Pod的Request和大于100%,触发离线Pod驱逐 是 是 是 当节点实际资源使用率超过高水位线,触发离线Pod驱逐 使用方式 请根据集群版本确定资源超卖使用方式,详情请参见表1。
要求有单独的存储,这时Deployment无法满足业务需求。 分布式有状态应用的特点主要是应用中每个部分的角色不同(即分工不同),比如数据库有主备、Pod之间有依赖,在Kubernetes中部署有状态应用对Pod有如下要求: Pod能够被别的Pod找到,要求Pod有固定的标识。
要与queryStringConfig字段搭配使用。 SourceIp:根据匹配的请求网段进行转发,需要与sourceIpConfig字段搭配使用。SourceIp仅可配置一次。 - methodConfig 触发转发的HTTP请求方法,仅当type参数值为Method时使用。
请输入最小实例数和最大实例数。 策略触发时,工作负载实例将在此范围内伸缩。 冷却时间 请输入缩容和扩容的冷却时间,单位为分钟,缩容扩容冷却时间不能小于1分钟。 该设置仅在1.15到1.23版本的集群中显示。 策略成功触发后,在此缩容/扩容冷却时间内,不会再次触发缩容/扩容,目的是等待伸缩动
问题现象 若因OOM被终止的进程为容器的阻塞进程,可能会导致容器异常重启。 问题原因 容器不允许使用超过其限制的内存,超过后容器可能会被终 止,触发OOM(Out Of Memory)事件,导致容器异常退出。关于OOM事件,可以参考为容器和Pod分配内存资源。 解决方案 登录CCE控制台。
比(默认50%)时,会触发集群缩容操作。 节点状态条件:节点处于不可用状态下超过一定时间会被自动回收,默认为20分钟。 缩容例外场景:节点满足以下例外场景时,即使节点资源或状态满足缩容条件,不会被CCE集群弹性引擎自动缩容。 集群其它节点资源不足时将不会触发非完全空闲节点缩容。
kubelet配置 CPU管理策略配置 提供的CPU管理策略为应用分配独占的CPU核(即CPU绑核),提升应用性能,减少应用的调度延迟。 参数名 取值范围 默认值 是否允许修改 作用范围 cpu-manager-policy none/static none 允许 CCE Standard/CCE
scaleDownDelayAfterAdd 否 int 集群触发弹性扩容后,再次启动缩容评估的冷却时间,单位分钟,默认值:10。 scaleDownDelayAfterDelete 否 int 集群触发弹性缩容后,再次启动缩容评估的冷却时间,单位分钟,默认值:10。 scaleDownDelayAfterFailure
查看操作系统的错误日志。 cat /var/log/messages | grep $containerID | grep oom 根据日志判断是否触发了系统OOM。 排查思路 根据具体事件信息确定具体问题原因,如表1所示。 表1 容器启动失败 日志或事件信息 问题原因与解决方案 日志中存在exit(0)
当节点上所有Pod消耗的内存上涨时,可能存在下列两种行为: 当节点可用内存低于驱逐阈值时,将会触发kubelet驱逐Pod。关于Kubernetes中驱逐阈值的相关信息,请参见节点压力驱逐。 如果节点在kubelet回收内存之前触发操作系统内存不足事件(OOM),系统会终止容器,但是与Pod驱逐不同,k
容器使用SCSI类型云硬盘偶现IO卡住如何解决? 问题描述 容器使用SCSI类型的云硬盘存储,在CentOS节点上创建和删除容器触发磁盘频繁挂载卸载的场景,有概率会出现系统盘读写瞬时冲高,然后系统卡住的问题,影响节点正常工作。 出现该问题时,可在dmesg日志中观察到: Attached
如果同时配置了“CPU分配率”和“周期触发”的规则,当达到“周期触发”的时间值时CPU也满足扩容条件时,较早执行的周期触发规则会将节点池状态置为伸缩中状态,导致指标触发规则无法正常执行。待周期触发规则执行完毕,节点池状态恢复正常后,指标触发规则也不会执行。反之,如果指标触发规则执行较早,则等指标规则执行完毕后周期规则仍会执行。
发布时间:2024/04/26 当IAM服务发生区域性故障时,存在低概率触发鉴权异常,从而影响集群内工作负载存储卷挂载、负载均衡对接等功能。最新的集群版本针对该类故障场景进行了优化和加固,为确保您的业务稳定运行,建议您尽快将账号下的集群升级至目标版本。 触发条件 同时满足以下条件: 集群版本范围: 已EOS版本:v1
控制器访问kube-apiserver的QPS 配置建议: 无特殊需求建议保持默认配置 配置过大可能会导致kube-apiserver过载,配置过小可能会触发客户端限流,对控制器性能产生影响 控制器访问kube-apiserver的突发流量上限 控制器访问kube-apiserver的突发流量上限