检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Prometheus是一套开源的系统监控报警框架,能够采集丰富的Metrics(度量数据),目前已经基本是Kubernetes的标准监控方案。 Metrics Server是Kubernetes集群范围资源使用数据的聚合器。Metrics Server从kubelet公开的Summary
0-source-121-gb9675686c54267 如果状态都为不可用(Not Ready),则说明集群中无可用节点。 解决方案: 新增节点,若工作负载未设置亲和策略,pod将自动迁移至新增的可用节点,确保业务正常。 排查不可用节点问题并修复,排查修复方法请参见集群可用但节点状态为“不可用”如何解决?。
在运行过程中会保存数据或状态的工作负载称为“有状态工作负载(statefulset)”。例如MySQL,它需要存储产生的新数据。 因为容器可以在不同主机间迁移,所以在宿主机上并不会保存数据,这依赖于CCE提供的高可用存储卷,将存储卷挂载在容器上,从而实现有状态工作负载的数据持久化。 约束与限制
Pressure、MemoryPressure等节点状态是否为True。如果节点存在任一状态为True,则基于异常的关键词,查找相应的解决方案。 检查节点上的关键组件,及关键组件上的日志。节点上的关键组件为Kubelet及其运行时组件(Docker/Containerd),详细操作请参见检查节点的关键组件。
节点迁移到自定义节点池 功能介绍 该API用于将节点迁移到自定义节点池,仅default节点池下节点支持迁移。迁移过程节点无重置无重启,原节点密码将保留。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 调用方法 请参见如何调用API。
x86_64的EulerOS x86版本。 内核版本为4.15.0-136-generic以及以下内核版本的Ubuntu节点。 漏洞修复方案 EulerOS 2.9 版本镜像已提供修复版本,请尽快迁移到4.18.0-147.5.1.6.h541.eulerosv2r9.x86_64版本节点。 为工作负载配置
出口网络带宽保障通过设置网络优先级实现,具有如下优点: 平衡在线业务与离线业务对出口网络带宽的使用,保证在线业务有足够的网络带宽,在线业务触发阈值时,压缩离线业务带宽使用。 在线业务所占用的网络资源较少时,离线业务可使用更多带宽;在线业务所占用的网络资源较多时,降低离线业务资源占用量,从而优先保障在线业务的网络带宽。
传输的安全性,您可以根据需求创建四层或七层的访问方式来对接负载均衡器。 七层证书配置 四层证书配置 高可用部署 CCE为您提供高可用的部署方案: 集群支持3个控制节点的高可用模式 Node节点支持分布在不同AZ 创建工作负载时支持选用不同可用区或节点 容灾部署 磁盘加密 CCE支
v1.25 版本中移除。 升级备份说明 目前集群升级备份方式如下: 备份方式 备份对象 备份方式 备份时间 回滚时间 说明 etcd数据备份 etcd数据 升级流程中自动备份 1-5min 2h 必选备份,升级过程中自动进行,用户无需关注 CBR整机备份 Master节点磁盘,包括组件镜像、配置、日志以及etcd数据
定”进行保存。 步骤二:异构资源配置 单击左侧导航栏的“配置中心”,选择“异构资源配置”页签。 在“GPU配置”中找到“节点池配置”,并选择新增的目标节点池。 参考准备GPU虚拟化资源,选择满足GPU虚拟化要求的驱动,并开启支持GPU虚拟化。 图1 异构资源配置 单击“确认配置”进行保存。
图2 有安全风险的镜像配置示例 漏洞修复方案 规避措施: 配置工作负载的WORKDIR为固定目录。 若未设置工作负载WORKDIR目录,需确保工作负载使用的容器镜像来源可信。 执行以上规避措施前前请评估对业务的影响,并进行充分测试。 修复方案: 当前CCE团队已修复该漏洞,请您关注
Server插件来实现该能力: Prometheus是一套开源的系统监控报警框架,能够采集丰富的Metrics(度量数据),目前已经基本是Kubernetes的标准监控方案。 Metrics Server是Kubernetes集群范围资源使用数据的聚合器。Metrics Server从kubelet公开的Summary
节点磁盘检查异常处理 检查项内容 当前检查项包括以下内容: 检查节点关键数据盘使用量是否满足升级要求 检查/tmp目录是否存在500MB可用空间 解决方案 节点升级过程中需要使用磁盘存储升级组件包,使用/tmp目录存储临时文件。 问题场景一:Master节点磁盘使用量不满足升级要求 请联系技术支持人员排查处理。
配置中心 集群配置概览 集群访问配置 网络配置 调度配置 集群弹性伸缩配置 监控运维配置 Kubernetes原生配置 异构资源配置
插件 插件概述 容器调度与弹性插件 云原生可观测性插件 云原生异构计算插件 容器网络插件 容器存储插件 容器安全插件 其他插件
插件检查异常处理 检查项内容 当前检查项包括以下内容: 检查插件状态是否正常 检查插件是否支持目标版本 解决方案 问题场景一:插件状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“插件中心”处查看并处理处于异常状态的插件。 图1 查看插件状态 问题场景二:集群升级的目标版本已经不支持该插件
健康中心 健康中心概述 集群诊断 工作负载诊断 诊断项及修复方案 父主题: 云原生观测
问题: 配置过小:在网络抖动等短时故障场景下,容器可能会频繁迁移而影响业务。 配置过大:在节点故障时,容器可能长时间无法迁移,导致业务受损。 表1 容器故障迁移默认容忍周期配置参数说明 名称 参数 说明 取值 容器迁移对节点不可用状态的容忍时间 default-not-ready-toleration-seconds
包周期的CCE集群到期可以直接删除吗? CCE集群包周期到期后,您可以在备份好所有数据的情况下直接删除该集群。 如果到期后您仍没有续费或删除,系统会根据资源到期时间删除该集群,请及时续费并做好数据备份工作。 父主题: 计费类
企业管理应用容器化改造(ERP) 应用容器化改造方案概述 资源与成本规划 实施步骤 父主题: 容器化改造