检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer
Init容器是一种特殊容器,可以在Pod中的其他应用容器启动之前运行。每个Pod中可以包含多个容器,同时Pod中也可以有一个或多个先于应用容器启动的Init容器,当所有的Init 容器运行完成时,Pod中的应用容器才会启动并运行。详细说明请参见Init 容器。 生命周期(可选):
本文档重点介绍在CCE容器中如何配置域名解析。 服务 在创建工作负载(Deployment或ReplicaSet)之前,需要先创建与之相关联的服务。 因为Kubernetes在启动容器时,会为容器提供所有正在运行的服务作为环境变量。 例如,如果存在名为foo的服务,则所有容器将在其初始环境中获得以下变量。 FOO_SERVICE_HOST=<the
sification.ipynb。 使用CPU 创建一个普通job,镜像输入第三方镜像bvlc/caffe:cpu,设置对应的容器规格。 启动命令添加python /home/caffeEx00.py。 挂载刚刚导入的OBS存储盘: 单击“创建”。等待job执行完成,进入OBS存
节点镜像层数量异常检查 检查项内容 检查到您的节点上镜像层数量过多(>5000层),可能导致docker/containerd启动过慢,影响docker/containerd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。
最大浪涌(maxSurge) 与spec.replicas相比,可以有多少个Pod存在,默认值是25%。 比如spec.replicas为 4,那升级过程中就不能超过5个Pod存在,即按1个的步长升级,实际升级过程中会换算成数字,且换算会向上取整。这个值也可以直接设置成数字。 仅Deployment、DaemonSet支持配置。
检查周期 节点被判定不可移除后能再次启动检查的时间间隔。 5min 冷却时间 集群触发弹性缩容后,再次启动缩容评估的冷却时间。 说明: 集群中如果同时存在自动扩容和自动缩容的场景,建议配置该参数为0min,避免由于部分节点池持续扩容或者扩容失败重试而阻塞整体缩容节点行为,导致非预期的节点资源浪费。
CCE集群中工作负载镜像的拉取策略有哪些? 容器在启动运行前,需要镜像。镜像的存储位置可能会在本地,也可能会在远程镜像仓库中。 Kubernetes配置文件中的imagePullPolicy属性是用于描述镜像的拉取策略的,如下: Always:总是拉取镜像。 imagePullPolicy:
检查Node节点中Python命令是否可用。 检查方式 /usr/bin/python --version echo $? 如果回显值不为0证明检查失败。 解决方案 可优先重置节点或手动安装Python之后再进行升级。 父主题: 升级前检查异常问题排查
DNS是K8s中至关重要的基础服务之一,当容器DNS策略配置不合理,集群规模较大时,DNS容易出现解析超时、解析失败等现象,极端场景下甚至会引起集群内业务大面积解析失败。本文介绍Kubernetes集群中CoreDNS配置优化的最佳实践,帮助您避免此类问题。 解决方案 CoreD
2及以上版本)。 Pod 启动失败 FailedStart 重要 检查Pod是否启动成功。 Pod 拉取镜像失败 FailedPullImage 重要 检查Pod是否拉取镜像成功。 Pod 启动重试失败 BackOffStart 重要 检查Pod是否重启失败。 Pod 调度失败 FailedScheduling
输入主机路径,如/etc/hosts。 说明: 请注意“主机路径”不能设置为根目录“/”,否则将导致挂载失败。挂载路径一般设置为: /opt/xxxx(但不能为/opt/cloud) /mnt/xxxx(但不能为/mnt/paas) /tmp/xxx /var/xxx (但不能为/var/lib、/var/sc
如何修复出现故障的容器网卡? 容器的网卡出现故障,会导致容器不断重启,且该容器无法对外提供服务。可通过如下步骤修复出现故障的容器网卡: 操作步骤 执行如下命令,删除故障容器的Pod。 kubectl delete pod {podName} -n {podNamespace} 其中:
容 1.25.0 1.25.21 v1.25 修复autoscaler伸缩策略least-waste默认未启用的问题 修复节点池扩容失败后无法切换到其他节点池扩容且插件有重启动作的问题 默认污点容忍时长修改为60s 扩容规则禁用后仍然触发扩容 1.25.0 1.25.11 v1.25
例如下面例子中,引用了configmap-test的property_1,将其作为环境变量EXAMPLE_PROPERTY_1的值,这样容器启动后里面EXAMPLE_PROPERTY_1的值就是property_1的值,即“Hello”。 apiVersion: v1 kind: Pod
选择自定义规格时,您可根据需求调整插件实例的容器规格。 在参数配置页面,配置以下参数。 访问方式:支持“节点访问”,通过集群节点绑定的弹性公网IP进行访问,当集群节点未绑定弹性IP时无法正常使用。 证书配置:dashboard服务端使用的证书。 使用自定义证书 您需要参考样例填写pem格式的“证书文件”和“证书私钥”。
Job)的 Pod 失败情况会被统计下来,受 .spec.backoffLimit 字段所设置的全局重试次数限制。这意味着,如果存在某个索引值的 Pod 一直持续失败,则会 Pod 会被重新启动,直到重试次数达到限制值。 一旦达到限制值,整个 Job 将被标记为失败,并且对应某些索引的
Event事件存在部分缺失。 例如,集群中批量缩容10个节点,CCE打印了10次“删除节点”事件,但是Kubernetes仅打印了4次“缩容空闲节点启动”的Event事件。 问题根因 出现该问题的原因是Kubernetes在处理Event事件时,为了后端服务etcd的可用性,会对事件进行限
若节点在CCE集群移除后重装操作系统失败,请手动完成失败节点的操作系统重装,并在重装后登录节点执行清理脚本完成CCE组件清理,具体步骤参见重装操作系统失败如何处理。 移除节点会导致与节点关联的本地持久卷类型的PVC/PV数据丢失,无法恢复,且PVC/PV无法再正常使用。移除节点时使用了本
检查集群是否满足滚动升级条件 检查项内容 检查到您的集群暂时不满足滚动升级条件。 解决方案 该检查失败一般由于资源租户的资源配额不足引起,无法支持滚动升级; 请联系运维人员扩充资源之后重新检查。 父主题: 升级前检查异常问题排查