正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置节点故障检测策略 节点故障检查功能依赖node-problem-detector(简称:npd),npd是一款集群节点监控插件,插件实例会运行在每个节点上。本文介绍如何开启节点故障检测能力。 前提条件 集群中已安装CCE节点故障检测插件。 开启节点故障检测 登录CCE控制台,单击集群名称进入集群。
迁移节点 您可以将同一个集群下节点在节点池间进行迁移,具体迁移场景如表1。 表1 迁移场景 迁移场景 是否支持迁移 操作步骤 原节点池 待迁移的目标节点池 自定义节点池 默认节点池(DefaultPool) 支持迁移 将自定义节点池中的节点迁移到默认节点池 默认节点池(DefaultPool)
可优化的节点系统参数列表 CCE提供默认的节点系统参数在某些用户场景下可能出现性能瓶颈,因此用户可对部分节点系统参数进行自定义优化,节点系统参数如可优化的节点系统参数列表所示。 修改节点系统参数具有一定的风险,需要您对Linux命令和Linux系统知识具有较高程度的了解,避免误操作引起节点故障。
Endpoint的IP地址 在IDC的域名解析服务器上做级联配置。 此处配置跟具体域名解析服务器相关,不同域名解析服务器的配置方法不同,请根据实际情况配置。 这里使用BIND软件(一个常用的域名解析服务器软件)为例进行说明。 域名解析服务器上配置的关键是将需要解析华为云内部域名的任务转发给上一步创建的DNS
参数值过小时,安装elk时会提示不足。 查看参数: sysctl vm.max_map_count vm.max_map_count=262144 修改节点内核参数 节点内核参数如表1所示,此处以修改TCP发送keepalive探测消息的间隔时间tcp_keepalive_time为例。 登录节点,查看/etc/sysctl
节点运行 集群可用但节点状态为“不可用”如何解决? CCE集群中的节点无法远程登录,如何排查解决? 如何重置CCE集群中节点的密码? 如何收集CCE集群中节点的日志? 如何解决yum update升级操作系统导致的容器网络不可用问题? Node节点vdb盘受损,通过重置节点仍无法恢复节点?
则使用kubelet top node查看节点内存使用率: 节点内存使用率 = 节点已使用量 / 节点可分配 = 2413824Ki / 2213604Ki = 109% 实际节点内存使用率: 实际节点内存利用率 = 节点已使用量 / 节点内存总量 = 2413824Ki / 4030180Ki
CCE集群中的节点无法远程登录,如何排查解决? CCE创建节点成功后,无法ssh远程登录。ssh回显提示“所选的用户密钥未在远程主机上注册”,即root用户不能直接登录到节点。 出现上述问题的原因是CCE创建的节点安装了cloudinit,有默认的linux用户,并且该密钥也是用于linux。
自建IDC与CCE集群共享域名解析 方案概述 通过DNS Endpoint做级联解析 修改CoreDNS配置直接解析 父主题: 网络
GPU节点使用nvidia驱动启动容器排查思路 集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。
下条件的云服务器至节点池: 待纳管节点需与节点池属于同一虚拟私有云和子网。 待纳管节点需与节点池属于相同的企业项目。 待纳管节点需与当前节点池相同的计费模式。例如,按需计费节点池只支持纳管按需计费的节点。 待纳管节点需与当前节点池相同的云服务器组。 待纳管节点必须状态为“运行中”,且不携带
查询指定节点池支持配置的参数内容 功能介绍 该API用于查询指定节点池支持配置的参数内容。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/nodepools/{nodepo
自定义节点池纳管节点 功能介绍 该API用于在指定集群自定义节点池下纳管节点。竞价实例不支持纳管。 纳管节点支持ECS(弹性云服务器)节点、BMS(裸金属服务器)节点、DeH(专属主机)节点。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。
节点系统参数优化 可优化的节点系统参数列表 修改节点日志缓存内存占用量上限RuntimeMaxUse 修改最大文件句柄数 修改节点内核参数 修改节点进程 ID数量上限kernel.pid_max 父主题: 节点运维
切换至“节点”页签。 找到目标节点,单击节点后的“更多 > 删除”。 在弹出的“删除节点”窗口中,输入“DELETE”,单击“是”,等待完成节点删除。 删除节点后,原有节点上的工作负载实例会自动迁移至其他可用节点。 节点上绑定的磁盘和EIP如果属于重要资源请先解绑,否则会被级联删除。
图1 移除节点 您还可以选中多个节点一起移除,如下图所示。 图2 一次移除多个节点 在弹出的“移除节点”对话框中,配置重装操作系统需要的登录信息,单击“是”,等待完成节点移除。 移除节点后,原有节点上的工作负载实例会自动迁移至其他可用节点。 重装操作系统失败如何处理 移除节点重装操作
详情请参见如何加固CCE集群的自动创建的安全组规则? 节点应按需进行加固 CCE服务的集群节点操作系统配置与开源操作系统默认配置保持一致,用户在节点创建完成后应根据自身安全诉求进行安全加固。 CCE提供以下建议的加固方法: 通过“创建节点”的“安装后执行脚本”功能,在节点创建完成后,执行命令加固节点。具体操作步骤参考
败。 节点池未配置自定义安全组,且集群默认安全组被删除,导致扩容失败。 节点池指定的安全组被删除 无法获取节点池使用的密钥对 当扩容节点池失败时,事件中包含Ecs.0314错误,表明无法查询到节点池使用的密钥对,导致创建云服务器失败。 ...call fsp to query keypair
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。
节点池批量扩缩容节点时,Kubernetes Event事件存在部分缺失 问题现象 节点池批量扩缩容节点时,Kubernetes Event事件存在部分缺失。 例如,集群中批量缩容10个节点,CCE打印了10次“删除节点”事件,但是Kubernetes仅打印了4次“缩容空闲节点启动”的Event事件。