检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
out 大于等于0 1min 允许 CCE Standard/CCE Turbo 配置建议: 特殊场景诉求配置,通常默认值即可 父主题: 节点池
0 0 ... 解决方案 如何确认是否共享磁盘 根据检查信息,登录相应节点。 执行lsblk命令,查看/mnt/paas挂载了vgpaas-share分区,若存在则是共享磁盘场景,若不存在,则是非共享磁盘场景。 图1 查询是否为共享磁盘 节点挂载检查异常如何解决 取消手动修改的挂载点。
步骤一:节点池配置 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“节点管理”。 单击“创建节点池”,创建一个GPU虚拟化规格的节点池,操作详情请参见创建节点池。 关于GPU虚拟化节点的规格、操作系统、容器引擎、操作系统要求请参见准备GPU虚拟化资源。 节点池创建完成
shell模块、支持远程传输文件的file模块、支持暂停流程的breakpoint模块。 约束与限制 CCE节点镜像使用建议: 节点镜像推荐优先使用CCE服务维护的默认节点镜像。相关镜像经过严格的测试,且能获得最新的更新推送,具有更好的兼容性、稳定性和安全性。 如果您有特殊场景需
与服务Pod同节点 访问服务端所在节点IP+NodePort — 正常访问 访问非服务端所在节点IP+NodePort — 无法访问 访问服务端所在节点IP+NodePort — 正常访问 访问非服务端所在节点IP+NodePort — 无法访问 访问服务端所在节点IP+NodePort
Request总量占所有节点CPU总量的比例 节点池CPU使用率 百分比 节点池里的所有节点CPU使用量占总量的比例 节点池内存分配率 百分比 节点池里的所有节点的Pod 内存Request总量占所有节点内存总量的比例 节点池内存使用率 百分比 节点池里的所有节点内存使用量占总量的比例 节点数量趋势 个 节点池里的节点数量
节点内存检查异常处理 检查项内容 检查节点内存使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
CCE节点故障检测 插件介绍 CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。n
强制模式:插件Deployment实例强制调度到不同可用区的节点上,每个可用区下最多运行一个实例。如集群下节点不满足多可用区,插件实例将无法全部运行。节点故障后,插件实例存在无法迁移风险。 节点亲和 不配置:插件实例不指定节点亲和调度。 指定节点调度:指定插件实例部署的节点。若不指定,将根据集群默认调度策略进行随机调度。
新建节点检查 检查内容 检查集群是否可以正常创建节点。 检查步骤 登录CCE控制台,单击集群名称进入集群。 在导航栏中选择“节点管理”,并切换至“节点”页签,单击“创建节点”。节点配置详情请参见创建节点。 图1 创建节点 解决方案 若集群升级后您的集群无法创建节点,请联系技术支持人员。
节点OS检查异常处理 检查项内容 检查节点操作系统内核版本是否为CCE支持的版本。 解决方案 问题场景一:节点镜像非CCE标准镜像 CCE节点运行依赖创建时的初始标准内核版本,CCE基于该内核版本做了全面的兼容性测试,非标准的内核版本可能在节点升级中因兼容性问题导致节点升级失败,详情请参见高危操作及解决方案。
节点Sudo检查异常处理 检查项内容 检查当前节点sudo命令,sudo相关文件是否正常。 解决方案 问题场景一:sudo命令执行失败 集群原地升级过程中依赖sudo命令正常可用,请登录节点执行如下命令,排查sudo命令可用性。 sudo echo hello 如果sudo命令不
节点DNS检查异常处理 检查项内容 当前检查项包括以下内容: 检查当前节点DNS配置是否能正常解析OBS地址 检查当前节点是否能访问存储升级组件包的OBS地址 解决方案 节点升级过程中,需要从OBS拉取升级组件包。此项检查失败,请联系技术人员支持。 父主题: 升级前检查异常问题排查
UUID列表,最大支持配置5个。 禁止重复 NULL 允许 CCE Turbo 控制台上创建节点池时不允许指定,支持在节点池创建后在节点池配置管理中配置。 通过yangtse-agent的配置管理生效 父主题: 节点池
检测可能出现的节点磁盘压力问题,以便您及时感知。如出现节点磁盘压力问题,可根据数据盘空间不足时如何解决进行解决。 约束与限制 仅1.19及以上集群支持调小容器运行时和Kubelet组件使用的数据盘容量。 调整数据盘大小功能只支持云硬盘,不支持本地盘(本地盘仅在节点规格为“磁盘增强型”或“超高I/O型”时可选)。
节点池亲和性调度 在替换节点池、节点滚动升级等场景中,需要使用新节点池替换旧节点池。在这些场景下,为做到业务不感知,可以在业务触发变更时,将业务的Pod软亲和调度到新的节点池上。这种软亲和调度会尽量将新创建的Pod或者重调度的Pod调度到新的节点池,如果新节点池资源不足,或者新节
低版本内核的CentOS节点出现容器OOM时,偶现ext4文件系统卡死问题 故障现象 CentOS 7.6节点内核低于3.10.0-1160.66.1.el7.x86_64的场景下,节点上容器出现OOM后,可能遇到节点上所有容器无法访问,docker、jdb等相关进程处于D状态,节点重启后恢复。
群控制台,前往“节点管理”页面并切换至“节点”页签查看节点状态,请确保节点处于“运行中”状态。节点处于“安装中”、“删除中”状态时,均不支持升级。 若节点状态异常,请参考 集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 图1 查看节点状态 检查到节点操作系统不支持升级
节点池检查异常处理 检查项内容 检查节点池状态是否正常。 检查升级后节点池操作系统或容器运行时是否支持。 解决方案 问题场景:节点池状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面查看问题节点池状态。若该节点池状态处于伸缩中,请等待节点池伸缩完毕。 图1
节点Kubelet检查异常处理 检查项内容 检查节点kubelet服务是否运行正常。 解决方案 问题场景一:kubelet状态异常 kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测