检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
将集群中对应的cce节点进行数据清理。 限制每个容器的CPU和内存限制配额值。 对集群进行节点扩容。 您也可以重启节点,请至ECS控制台对节点进行重启,重启方法请参见如何重启弹性云服务器?。 增加节点,将高内存使用的业务容器分开部署。 重置节点,详情请参见重置节点。 节点恢复为可用后,工作负载即可恢复正常。
大,导致Master节点过载出现OOM。 解决方案 您可以扩容集群管理规模,集群管理规模越大,控制节点规格越高、性能也更佳。操作详情请参见变更集群规格。 如果您出现以上集群过载的情况,您也可以提交工单以获取技术支持。 排查项三:集群Secret落盘加密使用的KMS密钥是否有效 问题现象
如何使容器重启后所在容器IP仍保持不变? 单节点场景 如果集群下仅有1个节点时,要使容器重启后所在容器IP保持不变,需在工作负载中配置主机网络,在工作负载的yaml中的spec.spec.下加入hostNetwork: true字段。 多节点场景 如果集群下有多个节点时,除进行以
let的容器重启动作。当Pod中的容器退出时,kubelet 会按指数回退方式计算重启的延迟(10s、20s、40s...),其最长延迟为5分钟。 一旦某容器执行了10分钟并且没有出现问题,kubelet对该容器的重启回退计时器执行重置操作。 每种控制器对Pod的重启策略要求如下:
ubelet/cpu_manager_state 重启节点或重启kubelet,重启kubelet的方法如下: systemctl restart kubelet 此时重新拉起或创建工作负载,已可成功执行。 父主题: 规格配置变更
如何修复出现故障的容器网卡? 容器的网卡出现故障,会导致容器不断重启,且该容器无法对外提供服务。可通过如下步骤修复出现故障的容器网卡: 操作步骤 执行如下命令,删除故障容器的Pod。 kubectl delete pod {podName} -n {podNamespace} 其中:
1.2.0的版本升级到1.2.0及以上版本),重启集群中使用OBS的全部工作负载,否则工作负载使用OBS存储能力将受影响! 关于Everest插件的版本说明,请参见CCE容器存储插件(Everest)版本发布记录。 父主题: 产品变更公告
node名称,kubernetes node名称不支持修改,修改后会导致节点不可用及容器网络异常等故障,所以不支持更换节点私网IP。 支持修改公网IP:节点上的公网IP可以在ECS控制台更换。 修改节点私网IP后如何恢复 节点私网IP修改后,会导致节点不可用。这时您需要将节点的私网IP修改回原来使用的IP。
会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针: 存活探针:livenessProbe,用于检测容器是否正常,类似于执行ps命令检查进程是否存在。如果容器的存活检查失败,集群会对该容器执行重启操作;若容器的存活检查成功则不执行任何操作。
Containerd Pod重启风险检查异常处理 检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控的
工作负载配置的健康检查会定时检查业务,异常情况下pod会报实例不健康的事件且pod一直重启失败。 工作负载若配置liveness型(工作负载存活探针)健康检查,当健康检查失败次数超过阈值时,会重启实例中的容器。在工作负载详情页面查看事件,若K8s事件中出现“Liveness probe
容器启动后,容器中的内容不应修改。如果修改配置项(例如将容器应用的密码、证书、环境变量配置到容器中),当容器重启(例如节点异常重新调度Pod)后,会导致配置丢失,业务异常。 配置信息应通过入参等方式导入容器中,以免重启后配置丢失。 环境变量支持如下几种方式设置。 自定义:手动填写环境变量名称及对应的参数值。
设置镜像拉取策略 创建工作负载会从镜像仓库拉取容器镜像到节点上,当前Pod重启、升级时也会拉取镜像。 默认情况下容器镜像拉取策略imagePullPolicy是IfNotPresent,表示如果节点上有这个镜像就直接使用节点已有镜像,如果没有这个镜像就会从镜像仓库拉取。 容器镜像
Ingress支持的Service类型请参见ELB Ingress支持的Service类型。 已准备可信的证书,您可以从证书提供商处获取证书。操作详情请参见购买SSL证书。 使用TLS类型的密钥证书配置SNI 您可以使用以下方式使用TLS类型的密钥证书配置SNI。 当使用HTTPS协议时,才支持配置SNI。
他节点 节点重启 CCE 节点重启立即触发告警 登录集群查看告警节点状态,并确保节点正常启动可用,关注重启原因 节点kubelet故障 CCE 节点异常立即触发告警 登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点;重启kubelet
elet/cpu_manager_state 重启节点或重启kubelet,重启kubelet的方法如下: systemctl restart kubelet 此时重新拉起或创建工作负载,已可成功执行。 解决方式链接:CCE节点变更规格后,为什么无法重新拉起或创建工作负载? 父主题:
ST请求查询大量数据。 控制节点内存负载过高,影响系统稳定性。 停止大批量查询行为。 如果需要增强集群抗过载能力,您可以变更集群规格至更大的规模,详情请参见变更集群规格。 控制节点 修改集群控制节点安全组 说明: 控制节点安全组命名规则:集群名称-cce-control-随机数 可能导致控制节点无法使用
监控中心为什么没有展示自定义指标? 为什么云原生监控插件开启本地数据存储时,重启prometheus-server实例可能会导致节点列表的资源信息短时间(1-2分钟)无法正常显示? 为什么云原生监控插件开启本地数据存储时,重启kube-state-metrics实例可能会导致页面部分数据翻倍?
在集群列表中单击集群名称,进入集群“概览”页。 在连接信息的自定义SAN处单击,在弹出的窗口中添加IP地址或域名,然后单击“保存”。 图1 自定义SAN 当前操作将会短暂重启kube-apiserver并更新kubeconfig证书,此动作大约耗时5分钟,请避免在此期间操作集群。更新完成后请重新下载kubeconfig证书。
果容器分配了超过限制的内存,这个容器将会被优先结束。如果容器持续使用超过限制的内存,这个容器就会被终结。如果一个结束的容器允许重启,kubelet就会重启它,但是会出现其他类型的运行错误。 场景一 节点的内存超过了节点内存预留的上限,导致触发OOMkill。 解决方法: 可扩容节点或迁移节点中的pod至其他节点。