检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
随业务负载增长而增加,随业务负载降低而减少,保证业务平稳健康运行,节省成本。 优势 自由灵活 支持多种策略配置,业务流量达到扩容指标,秒级触发容器扩容操作。 高可用 自动检测伸缩组中实例运行状况,启用新实例替换不健康实例,保证业务健康可用。 低成本 只按照实际用量收取云服务器费用。
可请参见CCE事件列表。 ScalingReplicaSet 触发方式 立即触发:只要事件出现即发生告警。 累计触发:在指定的监控周期内,累计次数满足数值要求,才会发生告警。 选择“累计触发”,并设置监控周期为“5分钟”,累计次数为“> 3”。 告警等级 根据重要性选择告警等级,
数量。 Pod优先级抢占 当高优先级的Pod需要资源时,Kubernetes可能会驱逐低优先级的Pod,低优先级Pod可能会被重新调度和启动。 配置更新 更新Deployment或StatefulSet的相关配置(如镜像版本、环境变量、数据存储等)时,通常会触发滚动更新,进一步导致现有容器被逐步销毁并重新创建。
业务容器内存使用超过容器的内存限制量时,触发cgroup OOM,被系统内核终止。容器cgroup OOM在CentOS 7会偶现触发ext4文件系统卡死,ext4/jbd2会因为死锁而永远挂起。在文件系统上执行I/O的所有任务都将受到影响。 解决方法 临时解决方案:该问题触发后可以通过重启节点临时恢复。
高危操作一览 业务部署或运行过程中,用户可能会触发不同层面的高危操作,导致不同程度上的业务故障。为了能够更好地帮助用户预估及避免操作风险,本文将从集群/节点、网络与负载均衡、日志、云硬盘多个维度出发,为用户展示哪些高危操作会导致怎样的后果,以及为用户提供相应的误操作解决方案。 集群/节点
比(默认50%)时,会触发集群缩容操作。 节点状态条件:节点处于不可用状态下超过一定时间会被自动回收,默认为20分钟。 缩容例外场景:节点满足以下例外场景时,即使节点资源或状态满足缩容条件,不会被CCE集群弹性引擎自动缩容。 集群其它节点资源不足时将不会触发非完全空闲节点缩容。
扩容冷却时间不能小于1分钟。 该设置仅在1.15到1.23版本的集群中显示。 策略成功触发后,在此缩容/扩容冷却时间内,不会再次触发缩容/扩容,目的是等待伸缩动作完成后在系统稳定且集群正常的情况下进行下一次策略匹配。 伸缩配置 该设置仅在1.25及以上版本的集群中显示。 系统默认
问题现象 若因OOM被终止的进程为容器的阻塞进程,可能会导致容器异常重启。 问题原因 容器不允许使用超过其限制的内存,超过后容器可能会被终 止,触发OOM(Out Of Memory)事件,导致容器异常退出。关于OOM事件,可以参考为容器和Pod分配内存资源。 解决方案 登录CCE控制台。
检查到您集群中Master节点实际时区与集群时区不一致,滚动升级后Master节点上的时区会变为集群时区。 如果您集群中存在Cronjob,则可能会导致Cronjob在升级后触发一次非预期的执行。 解决方案 请在升级前关闭Cronjob后再次执行升级前检查,升级完成后开启Cronjob。 父主题: 升级前检查异常问题排查
scaleDownDelayAfterAdd 否 int 集群触发弹性扩容后,再次启动缩容评估的冷却时间,单位分钟,默认值:10。 scaleDownDelayAfterDelete 否 int 集群触发弹性缩容后,再次启动缩容评估的冷却时间,单位分钟,默认值:10。 scaleDownDelayAfterFailure
查看操作系统的错误日志。 cat /var/log/messages | grep $containerID | grep oom 根据日志判断是否触发了系统OOM。 排查思路 根据具体事件信息确定具体问题原因,如表1所示。 表1 容器启动失败 日志或事件信息 问题原因与解决方案 日志中存在exit(0)
Pressure的情况,节点会被添加系统污点。此时修改节点池kubelet组件配置参数或者重启节点kubelet后,该污点会被临时删除,可能会导致由于节点资源压力而触发驱逐的节点重新加入调度器计算流程中,Pod重新调度到该节点上,如果节点资源压力未缓解,之后节点会再次进入驱逐流程。 问题根因 当前kube
如果同时配置了“CPU分配率”和“周期触发”的规则,当达到“周期触发”的时间值时CPU也满足扩容条件时,较早执行的周期触发规则会将节点池状态置为伸缩中状态,导致指标触发规则无法正常执行。待周期触发规则执行完毕,节点池状态恢复正常后,指标触发规则也不会执行。反之,如果指标触发规则执行较早,则等指标规则执行完毕后周期规则仍会执行。
容器使用SCSI类型云硬盘偶现IO卡住如何解决? 问题描述 容器使用SCSI类型的云硬盘存储,在CentOS节点上创建和删除容器触发磁盘频繁挂载卸载的场景,有概率会出现系统盘读写瞬时冲高,然后系统卡住的问题,影响节点正常工作。 出现该问题时,可在dmesg日志中观察到: Attached
控制器访问kube-apiserver的QPS 配置建议: 无特殊需求建议保持默认配置 配置过大可能会导致kube-apiserver过载,配置过小可能会触发客户端限流,对控制器性能产生影响 控制器访问kube-apiserver的突发流量上限 控制器访问kube-apiserver的突发流量上限
发布时间:2024/04/26 当IAM服务发生区域性故障时,存在低概率触发鉴权异常,从而影响集群内工作负载存储卷挂载、负载均衡对接等功能。最新的集群版本针对该类故障场景进行了优化和加固,为确保您的业务稳定运行,建议您尽快将账号下的集群升级至目标版本。 触发条件 同时满足以下条件: 集群版本范围: 已EOS版本:v1
点无法在30min内到达运行中状态,触发超时回滚。因此请尽量避免使用reboot指令。 如果确实需要重启节点,可以选择: 在安装后脚本中使用shutdown -r <时间>命令,延迟重启。例如,使用shutdown -r 1命令可以延迟1分钟重启。 在节点状态为可用状态之后,手动进行节点重启。
点无法在30min内到达运行中状态,触发超时回滚。因此请尽量避免使用reboot指令。 如果确实需要重启节点,可以选择: 在安装后脚本中使用shutdown -r <时间>命令,延迟重启。例如,使用shutdown -r 1命令可以延迟1分钟重启。 在节点状态为可用状态之后,手动进行节点重启。
单击在弹出的窗口中设置伸缩策略参数: 类型:可选择“指标触发”(参见表2)或“周期触发”(参见表3)。选择类型后,可设置不同的触发条件及动作。 是否启用:可选择启用或关闭该策略规则。 填写完成上述参数,单击“确定”,您可以在列表中查看添加的策略规则。 表2 指标触发类型规则 参数 参数说明 触发条件 请选择“CPU
如果同时配置了“CPU分配率”和“周期触发”的规则,当达到“周期触发”的时间值时CPU也满足扩容条件时,较早执行的周期触发规则会将节点池状态置为伸缩中状态,导致指标触发规则无法正常执行。待周期触发规则执行完毕,节点池状态恢复正常后,指标触发规则也不会执行。反之,如果指标触发规则执行较早,则等指标规则执行完毕后周期规则仍会执行。