检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
多1000Mi。 申请值推荐计算公式: CPU申请值:计算“目标节点数 * 目标Pod规模”的值,并在表1中根据“集群节点数 * Pod规模”的计算值进行插值查找,向上取最接近规格的申请值及限制值。 例如2000节点和2w个Pod的场景下,“目标节点数 * 目标Pod规模”等于4
群控制台,前往“节点管理”页面并切换至“节点”页签查看节点状态,请确保节点处于“运行中”状态。节点处于“安装中”、“删除中”状态时,均不支持升级。 若节点状态异常,请参考 集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 图1 查看节点状态 检查到节点操作系统不支持升级
节点池检查异常处理 检查项内容 检查节点池状态是否正常。 检查升级后节点池操作系统或容器运行时是否支持。 解决方案 问题场景:节点池状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面查看问题节点池状态。若该节点池状态处于伸缩中,请等待节点池伸缩完毕。 图1
节点Kubelet检查异常处理 检查项内容 检查节点kubelet服务是否运行正常。 解决方案 问题场景一:kubelet状态异常 kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测
节点Ready检查异常处理 检查项内容 检查集群内节点是否Ready。 解决方案 问题场景一:节点状态显示不可用 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”,筛选出状态不可用的节点后,请参照控制台提供的“修复建议”修复该节点后重试检查。 问题场景二:节点状态与实际不符
预置条件 本实践提供在CCE上运行caffe的基础分类例子https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb的过程。 OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置(需要使用OBS
no agent会周期性采集节点上Pod的CPU和内存利用率,计算每个Pod的CPU和内存用量均值、峰值和标准差,并基于Pod的这些统计特征值,进一步计算节点的CPU和内存用量评估值。 超卖量的计算算法:节点资源超卖量 = (节点资源分配量 - 节点资源用量评估值) * 超卖比例
低版本内核的CentOS节点出现容器OOM时,偶现ext4文件系统卡死问题 故障现象 CentOS 7.6节点内核低于3.10.0-1160.66.1.el7.x86_64的场景下,节点上容器出现OOM后,可能遇到节点上所有容器无法访问,docker、jdb等相关进程处于D状态,节点重启后恢复。
卡死问题 IPVS缺陷导致节点上升级CoreDNS后出现概率性解析超时 节点ARP表项超过限制 EulerOS 2.9内核缺陷导致虚拟机卡住 父主题: 节点
节点磁盘检查异常处理 检查项内容 当前检查项包括以下内容: 检查节点关键数据盘使用量是否满足升级要求 检查/tmp目录是否存在500MB可用空间 解决方案 节点升级过程中需要使用磁盘存储升级组件包,使用/tmp目录存储临时文件。 问题场景一:Master节点磁盘使用量不满足升级要求
out 大于等于0 1min 允许 CCE Standard/CCE Turbo 配置建议: 特殊场景诉求配置,通常默认值即可 父主题: 节点池
节点journald检查异常处理 检查项内容 检查节点上的journald状态是否正常。 解决方案 请登录该节点,执行systemctl is-active systemd-journald命令查询journald服务运行状态。若回显状态异常,请执行systemctl restart
节点内存检查异常处理 检查项内容 检查节点内存使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
节点OS检查异常处理 检查项内容 检查节点操作系统内核版本是否为CCE支持的版本。 解决方案 问题场景一:节点镜像非CCE标准镜像 CCE节点运行依赖创建时的初始标准内核版本,CCE基于该内核版本做了全面的兼容性测试,非标准的内核版本可能在节点升级中因兼容性问题导致节点升级失败,详情请参见高危操作及解决方案。
节点挂载检查异常处理 检查项内容 检查节点上默认挂载目录及软链接是否被手动挂载或修改。 v1.23.16-r0、v1.25.11-r0、v1.27.8-r0、1.28.6-r0、v1.29.2-r0及以上版本的集群将软链修改为挂载绑定。 节点为非共享磁盘场景 CCE默认挂载/va
CCE节点故障检测 插件介绍 CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。n
节点Sudo检查异常处理 检查项内容 检查当前节点sudo命令,sudo相关文件是否正常。 解决方案 问题场景一:sudo命令执行失败 集群原地升级过程中依赖sudo命令正常可用,请登录节点执行如下命令,排查sudo命令可用性。 sudo echo hello 如果sudo命令不
节点DNS检查异常处理 检查项内容 当前检查项包括以下内容: 检查当前节点DNS配置是否能正常解析OBS地址 检查当前节点是否能访问存储升级组件包的OBS地址 解决方案 节点升级过程中,需要从OBS拉取升级组件包。此项检查失败,请联系技术人员支持。 父主题: 升级前检查异常问题排查
UUID列表,最大支持配置5个。 禁止重复 NULL 允许 CCE Turbo 控制台上创建节点池时不允许指定,支持在节点池创建后在节点池配置管理中配置。 通过yangtse-agent的配置管理生效 父主题: 节点池
与服务Pod同节点 访问服务端所在节点IP+NodePort — 正常访问 访问非服务端所在节点IP+NodePort — 无法访问 访问服务端所在节点IP+NodePort — 正常访问 访问非服务端所在节点IP+NodePort — 无法访问 访问服务端所在节点IP+NodePort