检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU节点使用nvidia驱动启动容器排查思路 集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。
节点运维 节点预留资源策略说明 默认数据盘空间分配说明 节点可创建的最大Pod数量说明 CCE节点kubelet和runtime组件路径与社区原生配置差异说明 将节点容器引擎从Docker迁移到Containerd 节点系统参数优化 配置节点故障检测策略 创建节点时执行安装前/后脚本
节点规格说明 您可以通过本节快速浏览CCE支持的节点规格清单及相关特性,帮助您选择合适的机型规格。 节点类型 说明 节点规格 弹性云服务器-虚拟机 使用KVM/擎天虚拟化技术的弹性云服务器类型,针对不同的应用场景,可以选择多种规格类型,提供不同的计算能力和存储能力。 X86机型:
集群的管理规模和控制节点的数量有关系吗? 集群管理规模是指:当前集群支持管理的最大节点数。若选择50节点,表示当前集群最多可管理50个节点。 针对不同的集群规模,控制节点的规格不同,但数量不受管理规模的影响。 集群的多控制节点模式开启后将创建三个控制节点,在单个控制节点发生故障后集群可以继续使用,不影响业务功能。
请避免在安装后脚本中直接使用reboot指令。 当前CCE会在执行完节点必备组件的安装之后,再执行安装后脚本。当安装后脚本执行完之后才会将节点状态置为可用状态。如果直接使用reboot命令,可能会导致节点在上报状态之前就被重启,从而造成节点无法在30min内到达运行中状态,触发超时回滚。因此请尽量避免使用reboot指令。
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。
Boolean 节点配置是否与所属节点池的节点模板最新配置一致。当更新节点池os或runtime后,该节点池中存量节点的os或runtime便与节点池存在差异,configurationUpToDate参数值即为false。重置节点后,存量节点的os和runtime与节点池配置保持一
当按需节点池中的节点转成包年/包月后,该节点不支持弹性缩容。 按需节点转包年/包月 按需计费节点绑定的资源(云硬盘、弹性公网IP)可能不支持同步变更计费模式,详情请参见弹性云服务器ECS按需转包年/包月说明。 按需节点池中的节点转成包年/包月时,请在节点列表中找到目标节点并单击“
节点运行 集群可用但节点状态为“不可用”如何解决? CCE集群中的节点无法远程登录,如何排查解决? 如何重置CCE集群中节点的密码? 如何收集CCE集群中节点的日志? 如何解决yum update升级操作系统导致的容器网络不可用问题? Node节点vdb盘受损,通过重置节点仍无法恢复节点?
节点池批量扩缩容节点时,Kubernetes Event事件存在部分缺失 问题现象 节点池批量扩缩容节点时,Kubernetes Event事件存在部分缺失。 例如,集群中批量缩容10个节点,CCE打印了10次“删除节点”事件,但是Kubernetes仅打印了4次“缩容空闲节点启动”的Event事件。
节点网络配置 节点关联自定义安全组 节点池自定义安全组配置。 参数名 取值范围 默认值 是否允许修改 作用范围 customSecurityGroups UUID列表,最大支持配置5个。 禁止重复 NULL 允许 CCE Turbo 配置自定义安全组后,原集群默认节点安全组将不会被配置至新创建节点。
CCE节点NTP时间不同步如何解决? 问题现象 节点上的ntpd在长时间无法连接ntpserver等特殊场景下,可能导致偏移量过大,无法自动恢复。 问题检测 CCE节点故障检测插件(npd)中已包含节点时间同步检查项,您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。
Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高 问题现象 Containerd节点上业务容器标准输出不断写入大量日志,导致/var/lib/containerd目录占用空间不断增长,同时节点上容器创删速度变慢,进一步出现磁盘使用率过高、Pod驱逐、节点异常等现象。
RuntimeMaxUse 创建节点/节点池时自动配置RuntimeMaxUse 您可以设置节点或节点池安装后执行脚本,在新建节点或节点池时通过脚本配置RuntimeMaxUse大小。 首先您需要确认创建节点或节点池的操作系统,例如CentOS 7.6。 在同集群、同操作系统的节点上进行脚本命令可
则使用kubelet top node查看节点内存使用率: 节点内存使用率 = 节点已使用量 / 节点可分配 = 2413824Ki / 2213604Ki = 109% 实际节点内存使用率: 实际节点内存利用率 = 节点已使用量 / 节点内存总量 = 2413824Ki / 4030180Ki
扩容的节点规格并增加扩容节点数,然后单击“确定”。 切换至“节点”页签,找到目标节点单击“更多 > 节点排水”,安全驱逐节点上的业务Pod。 等业务Pod调度到新节点后,单击节点池名称后的“扩缩容”,选择需要缩容的节点规格并设置缩容节点数,然后单击“确定”。 父主题: 规格配置变更
同步节点 功能介绍 该API用于同步节点。 调用方法 请参见如何调用API。 URI GET /api/v2/projects/{project_id}/clusters/{cluster_id}/nodes/{node_id}/sync 表1 路径参数 参数 是否必选 参数类型
Synchronizing:伸缩中(节点池当前节点数未达到预期,且无伸缩中的节点) Synchronized:伸缩等待中(节点池当前节点数未达到预期,或者存在伸缩中的节点) SoldOut:节点池当前不可扩容(兼容字段,标记节点池资源售罄、资源配额不足等不可扩容状态) 说明: 上述节点池状态已废弃,仅
CCE集群中的节点无法远程登录,如何排查解决? CCE创建节点成功后,无法ssh远程登录。ssh回显提示“所选的用户密钥未在远程主机上注册”,即root用户不能直接登录到节点。 出现上述问题的原因是CCE创建的节点安装了cloudinit,有默认的linux用户,并且该密钥也是用于linux。
Synchronizing:伸缩中(节点池当前节点数未达到预期,且无伸缩中的节点) Synchronized:伸缩等待中(节点池当前节点数未达到预期,或者存在伸缩中的节点) SoldOut:节点池当前不可扩容(兼容字段,标记节点池资源售罄、资源配额不足等不可扩容状态) 说明: 上述节点池状态已废弃,仅