检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查节点内存使用量是否超过90%。 19 节点时钟同步服务器检查异常处理 检查节点时钟同步服务器ntpd或chronyd是否运行正常。 20 节点OS检查异常处理 检查节点操作系统内核版本是否为CCE支持的版本。 21 节点CPU数量检查异常处理 检查您的集群Master节点的CPU核心数量,要求Master节点的核心数量大于2核。
启节点;如通过API或其他方式创建节点则需要用户在“安装后执行脚本”中添加驱动安装命令。 支持的NPU卡类型和对应的操作系统规格如下: NPU卡类型 支持的操作系统 D310 EulerOS 2.5 x86、CentOS 7.6 x86、EulerOS 2.9 x86、EulerOS
在CCE集群中使用工作负载Identity的安全配置建议 工作负载指标监控实践 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 工作负载弹性伸缩实践
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理 GPU监控指标说明 父主题: 调度
everest 部分代码及架构进行重构,改善代码架构,提高插件的可扩展性和稳定性 支持优雅退出 支持OBS进程监控 1.3.28 v1.19 v1.21 v1.23 支持优雅退出 支持OBS进程监控 1.3.22 v1.19 v1.21 v1.23 修复重复挂盘偶现挂载后读写失败的问题 1.3
荐您使用IAM实现权限管理。 若您使用企业项目设置子用户权限,会有如下功能限制: 在CCE控制台,集群监控获取AOM监控的接口暂不支持企业项目,因此企业项目子用户将无法查看监控相关数据。 在CCE控制台,由于创建节点时的密钥对查询接口不支持企业项目,因此企业项目子用户将无法使用“
目的是等待伸缩动作完成后在系统稳定且集群正常的情况下进行下一次策略匹配。 伸缩配置 该设置仅在1.25及以上版本的集群中显示。 系统默认:采用社区推荐的默认行为进行负载伸缩,详情请参见社区默认行为说明。 自定义:自定义扩/缩容配置的稳定窗口、步长、优先级等策略,实现更灵活的配置。未配置的参数将采用社区推荐的默认值。
通过API或kubectl操作CCE集群,创建的资源是否能在控制台展示? 在CCE控制台,暂时不支持显示的kubernetes资源有:DaemonSet、 ReplicationController、ReplicaSets、Endpoints等。 若需要查询这些资源,请通过kubectl命令进行查询。
kubelet健康检查端口 10250 TCP kubelet服务端口,提供节点上工作负载的监控信息和容器的访问通道 10255 TCP kubelet只读端口,提供节点上工作负载的监控信息 动态端口(与宿主机限制的范围有关,比如 内核参数 net.ipv4.ip_local_port_range)
Engine,简称CCE)提供高度可扩展的、高性能的企业级Kubernetes集群,支持运行Docker容器,提供了Kubernetes集群管理、容器应用全生命周期管理、应用服务网格、Helm应用模板、插件管理、应用调度、监控与运维等容器全栈能力,为您提供一站式容器平台服务。借助云
集群系统密钥说明 CCE默认会在每个命名空间下创建如下密钥。 default-secret paas.elb default-token-xxxxx(xxxxx为随机数) 下面将详细介绍这个几个密钥的用途。 default-secret default-secret的类型为kubernetes
Engine,简称CCE)提供高度可扩展的、高性能的企业级Kubernetes集群,支持运行Docker容器,提供了Kubernetes集群管理、容器应用全生命周期管理、应用服务网格、Helm应用模板、插件管理、应用调度、监控与运维等容器全栈能力,为您提供一站式容器平台服务。借助云
CCE集群支持的优先级调度如表1所示。 表1 业务优先级保障调度 调度类型 说明 基于优先级调度 调度器优先保障高优先级业务运行,但不会主动驱逐已运行的低优先级业务。基于优先级调度配置默认开启,不支持关闭。 基于优先级抢占调度 当集群资源不足时,调度器主动驱逐低优先级业务,保障高优先级业务正常调度。
17 v1.19 修复监控指标无法被获取的问题 0.7.1 1.14.4 v1.17 v1.19 适配ARM64节点部署 适配containerd运行时节点 0.7.1 1.14.2 v1.17 v1.19 适配CCE v1.19集群 新增支持Ubuntu操作系统和安全容器场景 0.7
11 v1.17 v1.19 适配CCE v1.19集群 2.10.0 1.15.1 v1.15 v1.17 Prometheus是一个监控系统和时间序列库 2.10.0 父主题: 插件版本发布记录
参考排查项继续排查)。 检查节点监控 登录CCE服务控制台。 在界面中选择需要检查节点所在的集群。 在集群列表页面单击“节点管理”,切换到“节点”一栏,在异常节点所在行单击“监控”。 单击“监控”页签顶部的“查看更多”,前往运维管理页面查看历史监控记录。当节点CPU和内存负载过高
方便的管理和维护。 CCE提供的集群相关功能包括:购买集群、Kubectl访问集群、集群弹性扩容、升级集群、删除集群、集群休眠与唤醒、集群监控、集群权限控制等。 集群概述 购买Standard/Turbo集群 购买Autopilot集群 通过kubectl连接CCE集群 CCE Autopilot集群
步骤一:安装云原生监控插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 建议您关注以下配置,其他配置可按需进行设置。详情请参见云原生监控插件。 数据存储配置:必选本地数据存储,可选监控数据是否对接AOM或三方监控平台。
节点滚动升级 操作场景 节点滚动升级就是先创建新节点,然后将工作负载迁移到新的节点上,再删除旧节点。迁移流程如图1所示。 图1 节点迁移流程 约束与限制 现有节点和工作负载待迁移的节点必须在同一集群。 当前仅支持在Kubernetes v1.13.10及以后集群版本执行此操作。
可优化的节点系统参数列表 CCE提供默认的节点系统参数在某些用户场景下可能出现性能瓶颈,因此用户可对部分节点系统参数进行自定义优化,节点系统参数如可优化的节点系统参数列表所示。 修改节点系统参数具有一定的风险,需要您对Linux命令和Linux系统知识具有较高程度的了解,避免误操作引起节点故障。