检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
注意:这里的containerID为已退出的容器的ID 图3 容器启动命令配置不正确 如上图所示,容器配置的启动命令不正确导致容器启动失败。其他错误请根据日志提示修复工作负载本身的BUG问题。 解决方案: 重新创建工作负载,并配置正确的启动命令。 父主题: 工作负载异常问题排查
CCE启动实例失败时的重试机制是怎样的? CCE是基于原生Kubernetes的云容器引擎服务,完全兼容Kubernetes社区原生版本,与社区最新版本保持紧密同步,完全兼容Kubernetes API和Kubectl。 在Kubernetes中,Pod的spec中包含一个res
Init容器未启动成功。 Pod运行状态为Init:Error,说明Pod中的Init容器启动失败。 Pod运行状态为Init:CrashLoopBackOff,说明Pod中的Init容器启动失败并处于反复重启状态。 解决方案 查看Pod的事件,确认当前Pod中未启动的Init容
GPU节点使用nvidia驱动启动容器排查思路 集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。
node。集群everest插件的everest-csi-driver 在节点上未正常启动。 检查kube-system命名空间下名为everest-csi-driver的守护进程,查看对应Pod是否正常启动,若未正常启动,删除该Pod,守护进程会重新拉起该Pod。 排查项八:检查节点thinpool空间是否充足
纳管节点时失败,报错“安装节点失败”如何解决? 问题描述 节点纳管失败报错安装节点失败。 问题原因 登录节点,查看/var/paas/sys/log/baseagent/baseagent.log安装日志,发现如下报错: 查看节点LVM设置,发现/dev/vdb没有创建LVM逻辑卷。
工作负载异常:实例拉取镜像失败 问题定位 当工作负载状态显示“实例未就绪:Back-off pulling image "xxxxx"”,该状态下工作负载实例K8s事件名称为“实例拉取镜像失败”或“重新拉取镜像失败”。查看K8s事件的方法请参见Pod事件查看方法。 排查思路 根据
于检查用户业务是否就绪,如果未就绪,则不转发流量到当前实例。一些程序的启动时间可能很长,比如要加载磁盘数据或者要依赖外部的某个模块启动完成才能提供服务。这时候程序进程已启动,但是并不能对外提供服务。这种场景下该检查方式就非常有用。如果容器的就绪检查失败,集群会屏蔽请求访问该容器;若检查成功,则会开放对该容器的访问。
最大浪涌为25%,即升级过程中可能的最大Pod数为13。在该工作负载注解中,指定了Pod延时启动时间为20s,在该时间内保证Pod正常启动后,跨VPC网络可正常访问。 表1 Pod延迟启动annotation配置 注解 默认值 参数说明 取值范围 cni.yangtse.io/r
定时任务停止一段时间后,为何无法重新启动? 定时任务在运行过程中,如果被暂停,再次被开启时,控制器会检查上一次调度的时间点到现在所错过了调度次数。如果错过的调度次数超过100次, 那么它就不会启动这个任务并记录这个错误,详情请参考CronJob限制。 Cannot determine
CCE集群创建失败的原因与解决方法? 概述 本文主要介绍在CCE集群创建失败时,如何查找失败的原因,并解决问题。 详细信息 集群创建失败的原因包括: ntpd没安装或者安装失败、k8s组件预校验不过、磁盘分区错误等,目前只能尝试重新创建,定位方法请参见定位失败原因。 当前集群规模
当按需计费的集群暂时不需要使用时,您可以将其设置为休眠状态,有助于节省成本并减少资源浪费。 集群休眠后,将无法在此集群上创建和管理工作负载等资源。 注意事项 集群唤醒过程中,可能会由于资源不足导致Master节点启动失败,从而导致集群唤醒失败,请过一段时间再次唤醒。 集群唤醒后,需要3~5分钟进行数据初始化。建议您等待集群稳定运行后再进行业务下发。
目前提供的生命周期回调函数如下所示: 启动命令:容器将会以该启动命令启动,请参见启动命令。 启动后处理:容器启动后触发,请参见启动后处理。 停止前处理:容器停止前触发。设置停止前处理,确保升级或实例删除时可提前将实例中运行的业务排水。详细请参见停止前处理。 启动命令 在默认情况下,镜像启动时会运行默认命
为ELB Ingress配置慢启动持续时间 慢启动指负载均衡器向组内新增的后端服务器Pod线性增加请求分配权重,直到配置的慢启动时间结束,负载均衡器向后端服务器Pod正常发送完请求的启动模式。慢启动能够实现业务的平滑启动,完美避免业务抖动问题。 配置慢启动持续时间后,如果您在YAML
原因二:创建节点池输入的KMS密钥ID为他人密钥,但他人未给您授权。 解决方案: 对于原因一引起的扩容失败,确保您输入密钥ID存在。 对于原因二引起的扩容失败,请使用已给您授权的共享密钥ID。 节点池指定的安全组被删除 当扩容节点池失败时,事件中包含创建节点失败的错误,错误信息如下: Security
CCE集群升级时,升级集群插件失败如何排查解决? 概述 本文主要介绍在CCE在升级集群时,如何查找插件升级失败的原因,并解决问题。 操作步骤 插件升级失败后,请优先进行重试。若重试不成功,则根据后续步骤排查问题。 在升级界面显示失败后,请退出集群升级页面,前往“插件中心”界面查看
上传模板失败如何解决? 问题现象 上传模板时出现“请求失败,请稍后重试”的错误,错误码为SVCSTG.CCECAM.4000121,错误信息提示“Package name and version must be valid and same with chart name and
创建存储卷失败如何解决? 现象描述 创建PV或PVC失败,在事件中看到如下信息。 {"message": "Your account is suspended and resources can not be used.", "code": 403} 问题根因 事件信息表示账号被
CCE集群内域名解析失败,如何定位处理? 排查项一:检查是否已安装CoreDNS插件 登录CCE控制台,进入集群。 在左侧导航栏中选择“插件中心”,确认异常的集群是否已安装CoreDNS插件。 如果未安装,请安装。详情请参见为什么CCE集群的容器无法通过DNS解析? 排查项二:检查CoreDNS实例是否已到达性能瓶颈
创建中”,nginx-ingress-contoller的pod一直处于pending状态。 解决方案 nginx限制的内存资源不足导致无法启动,取消限制后正常。 场景模拟 新集群3个节点,规格 6cpu,12G内存,每个节点2U4G。 单击nginx-ingress插件安装,选择规格2核2G。