检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
组件负责Pod的调度,对每一个新创建的 Pod 或者是未被调度的 Pod,kube-scheduler 会选择一个最优的节点去运行这个 Pod。kube-scheduler 给一个 Pod 做调度选择包含过滤和打分两个步骤。过滤阶段会将所有满足 Pod 调度需求的节点选出来,在打分阶段
第二位小数:预绑定高水位,弹性网卡预绑定的最高比例(最大预绑定弹性网卡数 = ⌊节点的总弹性网卡数 * 预绑定高水位⌋) BMS节点上绑定的弹性网卡数:Pod正在使用的弹性网卡数 + 最小预绑定弹性网卡数 < BMS节点上绑定的弹性网卡数 < Pod正在使用的弹性网卡数 + 最大预绑定弹性网卡数
节点DNS检查异常处理 检查项内容 当前检查项包括以下内容: 检查当前节点DNS配置是否能正常解析OBS地址 检查当前节点是否能访问存储升级组件包的OBS地址 解决方案 节点升级过程中,需要从OBS拉取升级组件包。此项检查失败,请联系技术人员支持。 父主题: 升级前检查异常问题排查
节点OS检查异常处理 检查项内容 检查节点操作系统内核版本是否为CCE支持的版本。 解决方案 问题场景一:节点镜像非CCE标准镜像 CCE节点运行依赖创建时的初始标准内核版本,CCE基于该内核版本做了全面的兼容性测试,非标准的内核版本可能在节点升级中因兼容性问题导致节点升级失败,详情请参见高危操作及解决方案。
由于不同版本之间的运行时和OS存在差异,该异常通常发生在低版本集群升级到1.27及以上集群。当前CCE集群版本和OS的配套关系请参见节点操作系统说明。 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理“页面查看问题节点池,并单击节点池的“更新”。根据升级前检查的提示信息,修改支持的操作系统,并单击“确定”。
问题场景一:Master节点磁盘使用量不满足升级要求 请联系技术支持人员排查处理。 问题场景二:用户节点磁盘使用量不满足升级要求 请执行以下检查命令,检查当前各关键磁盘的空间使用情况,删除整理确保各可用空间满足要求后,重试检查。 docker容器运行时磁盘分区(可用空间需满足1G) df -h /var/lib/docker
kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测到当前kubelet依赖的pause容器镜像版本非cce-pause:3.1,继续升级将会导致批量Pod重启,当前暂不支持升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查
检查集群内节点是否Ready。 解决方案 问题场景一:节点状态显示不可用 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”,筛选出状态不可用的节点后,请参照控制台提供的“修复建议”修复该节点后重试检查。 问题场景二:节点状态与实际不符 节点状态与实际不符可能存在两种情况: 控制台“节点管理”处
节点journald检查异常处理 检查项内容 检查节点上的journald状态是否正常。 解决方案 请登录该节点,执行systemctl is-active systemd-journald命令查询journald服务运行状态。若回显状态异常,请执行systemctl restart
2-r0版本的集群:CCE默认创建链接/var/lib/kubelet -> /mnt/paas/kubernetes/kubelet,检查是否被用户修改。 v1.23.16-r0、v1.25.11-r0、v1.27.8-r0、1.28.6-r0、v1.29.2-r0及以上版本的集群:
通用文件存储(SFS 3.0)在OS中的挂载点修改属组及权限报错 现象描述 将通用文件存储(SFS 3.0)挂载到OS中某个目录后,该目录成为通用文件存储(SFS 3.0)的挂载点,使用chown和chmod命令尝试修改挂载点的属组或权限,会遇到以下报错: chown: changing
节点池CPU使用率 百分比 节点池里的所有节点CPU使用量占总量的比例 节点池内存分配率 百分比 节点池里的所有节点的Pod 内存Request总量占所有节点内存总量的比例 节点池内存使用率 百分比 节点池里的所有节点内存使用量占总量的比例 节点数量趋势 个 节点池里的节点数量 指标清单 节点池视图使用的指标清单如下:
节点ID文件检查异常处理 检查项内容 检查节点的ID文件内容是否符合格式。 解决方案 在CCE控制台上的“节点管理”页面,单击异常节点名称进入ECS界面。 复制节点ID,保存到本地。 图1 复制节点ID 登录异常节点,备份文件 。 cp /var/lib/cloud/data/instance-id
节点系统参数检查异常处理 检查项内容 检查您节点上默认系统参数是否被修改。 解决方案 如您的bms节点上bond0网络的mtu值非默认值1500,将出现该检查异常。 非默认参数可能导致业务丢包,请改回默认值。 父主题: 升级前检查异常问题排查
Gang调度策略是volcano-scheduler的核心调度算法之一,它满足了调度过程中的“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费。具体算法是,观察Job下的Pod已调度数量是否满足了最小运行数量,当Job的最小运行数量得到满足时,为Job下的所有Pod执行调度动作,否则,不执行。
挂载文件存储的节点,Pod创建删除卡死 故障现象 在挂载文件存储(SFS或SFS Turbo)的节点上,删除Pod卡在“结束中”,创建Pod卡在“创建中”。 可能原因 后端文件存储被删除,导致无法访问挂载点。 节点与文件存储间网络异常,导致无法访问挂载点。 解决方案 登录挂载文件
docker ps | grep gitlab 在Gitlab上创建项目时,生成项目的URL访问地址是通过容器的hostname进行生成的,即容器的id。作为Gitlab服务器,需要一个固定的 URL访问地址,因此需要配置gitlab.rb(宿主机路径:/home/gitlab/config/gitlab
模板市场 插件管理 权限管理 集群管理 CCE是一种托管的Kubernetes产品/服务,可进一步简化基于容器的应用程序部署和管理,您可以在CCE中方便的创建Kubernetes集群、部署您的容器化应用,以及方便的管理和维护。 CCE提供的集群相关功能包括:购买集群、Kubectl访问集
CCE集群:支持虚拟机节点。基于高性能网络模型提供全方位、多场景和安全稳定的容器运行环境。 CCE Turbo集群:基于云原生基础设施构建的云原生2.0容器引擎服务,具备软硬协同、网络无损、安全可靠和调度智能的优势,为用户提供一站式、高性价比的全新容器服务体验。支持裸金属节点。 CCE集群 *网络模型
l到集群Master节点的网络是否能够连通。 解决方法 如果是在集群外部执行kubectl,请检查集群是否绑定公网IP,如已绑定,请重新下载kubeconfig文件配置,然后重新执行kubectl命令。 如果是在集群内节点上执行kubectl,请检查节点的安全组,是否放通Node