检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点OS检查异常处理 检查项内容 检查节点操作系统内核版本是否为CCE支持的版本。 解决方案 问题场景一:节点镜像非CCE标准镜像 CCE节点运行依赖创建时的初始标准内核版本,CCE基于该内核版本做了全面的兼容性测试,非标准的内核版本可能在节点升级中因兼容性问题导致节点升级失败,详情请参见高危操作及解决方案。
1 CCE Turbo集群节点支持V7类型裸金属服务器和C7类型弹性云服务器 CCE Turbo集群节点支持V7类型裸金属服务器和C7类型弹性云服务器 公测 2 支持节点池包周期 节点池支持包周期,节点池能力更全面 商用 3 支持批量重置节点且支持使用私有镜像重置节点 支持批量重置节点且支持使用私有镜像重置节点
GPU节点使用nvidia驱动启动容器排查思路 集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。
请避免在安装后脚本中直接使用reboot指令。 当前CCE会在执行完节点必备组件的安装之后,再执行安装后脚本。当安装后脚本执行完之后才会将节点状态置为可用状态。如果直接使用reboot命令,可能会导致节点在上报状态之前就被重启,从而造成节点无法在30min内到达运行中状态,触发超时回滚。因此请尽量避免使用reboot指令。
节点操作系统 集群版本与操作系统对应关系 如下为当前已经发布的集群版本与操作系统版本的对应关系,请参考: 表1 弹性云服务器-虚拟机节点操作系统 操作系统 集群版本 CCE Standard集群 CCE Turbo集群 最新内核信息 VPC网络模型 容器隧道网络模型 云原生网络2
节点运行 集群可用但节点状态为“不可用”如何解决? CCE集群中的节点无法远程登录,如何排查解决? 如何重置CCE集群中节点的密码? 如何收集CCE集群中节点的日志? 如何解决yum update升级操作系统导致的容器网络不可用问题? Node节点vdb盘受损,通过重置节点仍无法恢复节点?
在安全组界面,单击操作列的“管理实例”。 在“服务器”页签,并单击“添加”。 勾选需要加入安全组的服务器,单击“确定”。您也可以通过服务器的名称、ID、私有IP地址、状态、企业项目或标签进行筛选。 通过修改左下角的单页最大显示条数,您可至多一次性添加20台服务器至安全组中。 加入新的安全组后,节点仍保留原安全组
max-pods 大于等于0 110 允许 CCE Standard/CCE Turbo 节点上可以正常运行的容器 Pod 的数目上限(包含系统默认实例)。此配置可防止节点因管理过多容器Pod而负荷过高。 配置建议: 根据节点配置变化 Pod中最大进程数 Pod中可创建最大进程数 参数名 取值范围
节点挂载点检查异常处理 检查项内容 检查节点上是否存在不可访问的挂载点。 解决方案 问题场景:节点上存在不可访问的挂载点 节点存在不可访问的挂载点,通常是由于该节点或节点上的Pod使用了网络存储nfs(常见的nfs类型有obsfs、sfs等),且节点与远端nfs服务器断连,导致挂
风险 节点迁移速率 当某区域健康时,在节点故障的情况下每秒删除 Pods 的节点数比例 参数名 取值范围 默认值 是否允许修改 作用范围 node-eviction-rate 大于0小于1 0.1 允许 CCE Standard/CCE Turbo 当某区域健康时,在节点故障的情况下每秒删除
节点ARP表项超过限制 问题现象 ARP缓存超限,容器网络的访问出现异常,例如coredns域名解析概率失败。 问题根因 出现该问题的原因是节点上容器缓存的ARP表项超过限制。 问题定位 在节点操作系统内核为4.3以上时,dmsg日志中会有显性的打印neighbor table
节点无法连接互联网(公网),如何排查定位? 当节点无法连接互联网时,请参照如下方法排查。 排查项一:节点是否绑定弹性IP 登录ECS控制台,查看节点对应的弹性云服务器是否已绑定弹性IP。 若弹性IP一栏有IP地址,表示已绑定弹性IP。若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP
管理节点池 更新节点池 更新弹性伸缩配置 修改节点池配置 纳管节点至节点池 复制节点池 同步节点池 升级操作系统 迁移节点 删除节点池 父主题: 节点池
er节点池的数量,并逐个删除Docker节点池中的节点。 推荐使用滚动的方式迁移,即扩容部分Containerd节点,再删除部分Docker节点,直至新的Containerd节点池中节点数量和原Docker节点池中节点数量一致。 若您在原有Docker节点或节点池上部署的负载设置
同步节点 功能介绍 该API用于同步节点。 调用方法 请参见如何调用API。 URI GET /api/v2/projects/{project_id}/clusters/{cluster_id}/nodes/{node_id}/sync 表1 路径参数 参数 是否必选 参数类型
CCE节点NTP时间不同步如何解决? 问题现象 节点上的ntpd在长时间无法连接ntpserver等特殊场景下,可能导致偏移量过大,无法自动恢复。 问题检测 CCE节点故障检测插件(npd)中已包含节点时间同步检查项,您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。
则使用kubectl top node查看节点内存使用率: 节点内存使用率 = 节点已使用量 / 节点可分配 = 2413824Ki / 2213604Ki = 109% 实际节点内存使用率: 实际节点内存利用率 = 节点已使用量 / 节点内存总量 = 2413824Ki / 4030180Ki
Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高 问题现象 Containerd节点上业务容器标准输出不断写入大量日志,导致/var/lib/containerd目录占用空间不断增长,同时节点上容器创删速度变慢,进一步出现磁盘使用率过高、Pod驱逐、节点异常等现象。
当并发请求数超过此值时,服务器请求会被拒绝 参数名 取值范围 默认值 是否允许修改 作用范围 max-requests-inflight 大于等于0 50和200节点:400 1000节点: 1000 2000节点: 2000 系统配置,不支持修改 CCE Standard/CCE Turbo 从1
节点池批量扩缩容节点时,Kubernetes Event事件存在部分缺失 问题现象 节点池批量扩缩容节点时,Kubernetes Event事件存在部分缺失。 例如,集群中批量缩容10个节点,CCE打印了10次“删除节点”事件,但是Kubernetes仅打印了4次“缩容空闲节点启动”的Event事件。