检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
-docker。 执行stat /run/containerd/containerd.sock命令,若发现存在该文件则会导致docker启动失败。 执行rm -rf /run/containerd/containerd.sock命令,然后重新进行集群升级检查。 父主题: 升级前检查异常问题排查
1,表示连续1次成功后记作成功 failure:失败,#failure=3,表示连续3次失败后会重启容器 以上存活探针表示:容器启动后立即进行探测,如果1s内容器没有给出回应则记作探测失败。每次间隔10s进行一次探测,在探测连续失败3次后重启容器。 这些是创建时默认设置的,您也可以手动配置,如下所示。
在什么场景下,容器会被重建? 在同一个命名空间内访问指定容器的FQDN是什么? 健康检查探针(Liveness、Readiness)偶现检查失败? 如何设置容器umask值? CCE启动实例失败时的重试机制是怎样的? 父主题: 工作负载
其他 定时任务停止一段时间后,为何无法重新启动? 创建有状态负载时,实例间发现服务是指什么? CCE容器拉取私有镜像时报错“Auth is empty” CCE集群中工作负载镜像的拉取策略有哪些? 鲲鹏集群Docker容器挂载点被卸载 下载镜像缺少层如何解决? 容器内的文件权限和用户都是问号
问题: Pod会随时被Deployment这样的控制器删除重建,那访问Pod的结果就会变得不可预知。 Pod的IP地址是在Pod启动后才被分配,在启动前并不知道Pod的IP地址。 应用往往都是由多个运行相同镜像的一组Pod组成,逐个访问Pod也变得不现实。 举个例子,假设有这样一
以下是一个Job配置,其计算π到2000位并打印输出。Job结束需要运行50个Pod,这个示例中就是打印π 50次,并行运行5个Pod,Pod如果失败最多重试5次。 apiVersion: batch/v1 kind: Job metadata: name: pi-with-timeout
实例状态为“运行中” Pod运行正常则无需处理。如果未正常工作,请参考工作负载状态正常但未正常工作 Init:N/M Init容器启动失败 请参考工作负载异常:Init容器启动失败 Init:Error Init容器启动失败 请参考工作负载异常:Init容器启动失败 Init:CrashLoopBackOff
CCE节点变更规格后,为什么无法重新拉起或创建工作负载? 问题背景 kubelet启动参数中默认将CPU Manager的策略设置为static,允许为节点上具有某些资源特征的pod赋予增强的CPU亲和性和独占性。用户如果直接在ECS控制台对CCE节点变更规格,会由于变更前后CP
od的极速弹性与慢速的容器网卡创建绑定的差异,严重影响了大规模批创场景下的容器启动速度。因此,云原生2.0网络提供了容器网卡动态预热的能力,在尽可能提高IP的资源利用率的前提下,尽可能加快Pod的启动速度。 约束与限制 CCE Turbo的1.19.16-r4、1.21.7-r0、1
集群所在VPC下所有子网(包括扩展网段子网)不能和服务网段冲突。 保证每个网段有足够的IP地址可用。 集群网段的IP地址要与集群规模相匹配,否则会因为IP地址不足导致无法创建节点。 容器网段的IP地址要与业务规模相匹配,否则会因为IP地址不足导致无法创建Pod。 云原生网络2.0模型下,
集群开启CPU管理策略(绑核)时,kubelet启动参数中会将CPU Manager的策略设置为static,允许为节点上具有某些资源特征的pod赋予增强的CPU亲和性和独占性。用户如果直接在ECS控制台对CCE节点变更规格,会由于变更前后CPU信息不匹配,导致节点上的负载无法重新拉起,也无法创建新负载。 登录
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态
StorageClass更新适配 由于集群的存储基础设施不同,迁移后的集群将无法正常挂载存储卷,您可执行以下方法的任意一种来完成存储卷的更新适配。 两种StorageClass的适配方法均需在目标集群中于恢复应用前完成,否则可能出现PV数据资源无法恢复的情况,此时在完成StorageClass适配后使
节点创建 CCE集群新增节点时的问题与排查方法? CCE集群纳管节点时的常见问题及排查方法? 纳管节点时失败,报错“安装节点失败”如何解决? CCE支持等保三级认证吗? 父主题: 节点
编写开机运行脚本 应用容器化时,一般需要准备开机运行的脚本,写作脚本的方式和写一般shell脚本相同。该脚本的主要目的包括: 启动应用所依赖的软件。 将需要修改的配置设置为环境变量。 开机运行脚本与应用实际需求直接相关,每个应用所写的开机脚本会有所区别。请根据实际业务需求来写该脚本。
集群删除 集群删除失败:安全组中存在残留资源 冻结或不可用的集群删除后如何清除残留资源 父主题: 集群
服务发布到ELB,工作负载已正常,但服务的pod端口未及时发布出来,ELB里的后端会被自动删除。 问题解答: 创建ELB时候,如果ELB健康检查失败,后端服务器组会删除,而且后续服务正常以后也不会添加。如果是更新已有的SVC时则不会删除。 添加删除节点的时候,由于集群状态的改变,可能会
问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb 问题场景二:systemctl status命令执行失败 检查到节点systemctl
检查节点镜像数量异常处理 检查项内容 检查到您的节点上镜像数量过多(>1000个),可能导致docker启动过慢,影响docker标准输出,影响nginx等功能的正常使用。 解决方案 请手动删除残留的镜像,防止后续升级异常; 删除镜像之后请您重新进行升级前检查 父主题: 升级前检查异常问题排查
installFailed:安装失败,表示插件安装失败,需要卸载后重新安装。 upgrading:升级中,表示插件正在更新中。 upgradeFailed:升级失败,表示插件升级失败,可重试升级或卸载后重新安装。 deleting:删除中,表示插件正在删除中。 deleteFailed:删除失败,表示插件删除失败,可重试卸载。