云服务器内容精选

  • 过程业务无感 传统升级方式主要有节点替换升级和集群迁移升级,两种方式均会导致业务Pod重建,进而影响用户业务。华为云率先推出原地升级能力,只需更新CCE组件版本,节点无需任何变动,对集群中运行的Pod业务无任何影响,从而实现无损升级。同时,原地升级在速度上相比传统升级有大幅提升。 图2 传统升级和原地升级对比 同时,用户无需关注集群与插件版本的依赖关系,一键式升级将为您自动进行升级适配,省心省力。 此外,如果在升级过程中出现不可预期的情况,可以基于备份为用户实现快速恢复,使用户更容易掌控集群升级。
  • 稳定高效升级 在升级稳定性提升方面,我们基于华为云上万次的升级经验沉淀,为用户提供了全方位的升级前检查项,检查项涵盖集群、节点、插件和应用、关键组件状态和配置、资源使用等方面,极大程度上为用户规避升级风险,实现稳定升级。同时,备份是业务连续性的重要保证,业界通用的Etcd备份方案存在无法备份集群组件和配置的问题,我们通过采用硬盘快照备份方案不仅为用户提供了完整的集群数据备份能力,且平均备份速度提升近10倍。 在升级效率方面,一方面由于Kubernetes社区只兼容相邻小版本,当版本跨度较大时,需要通过多次升级至最新版。我们为用户提供跨版本升级能力,最多支持跨4个大版本进行升级,如v1.23升级至v1.27,有效缩短用户升级路径,节约升级成本;另一方面,升级时间随着在集群规模正增长,我们在保证集群升级安全的前提下,最多支持100节点并发升级,让用户在更短的时间内完成集群节点升级,提高升级效率。 图3 简化集群升级路径 图4 集群节点并发升级
  • 丝滑交互体验 在升级引导方面,我们通过引导页面,给用户清晰直观呈现待升级集群的提示消息,让用户不会错过重要的升级通知。 图5 集群管理页面集群升级通知 为了降低用户理解成本,我们设计了升级小动画为用户阐述原地升级的概念和原理,帮助用户生动直观地了解集群升级流程和注意事项。 图6 集群升级动画 同时,我们推出了升级路径推荐功能,自动选择最佳的升级路径,并根据升级路径展示本次升级带来的特性更新和优化增强等。 图7 升级路径 在升级流程中,我们通过可视化的手段为用户详细呈现了升级的进度和异常情况,升级过程一目了然,使用户能掌控升级进度,降低焦虑。 图8 升级进度可视化 在升级检查异常时,我们基于不同资源汇聚了检查项信息,帮助用户快速查看异常项并提供修复建议,引导用户快速处理问题。 图9 升级异常诊断分析 在升级完成后,我们会帮助用户进行升级后自动验证,确保升级后的集群正常运行,节省用户时间和精力。 图10 自动健康诊断
  • 场景化:聚焦用户场景,无跳出运维管理 在实地拜访中,我们发现工程师近80%的工作场景都在进行运维相关的工作。而之前CCE提供的是基础的监控能力,用户需要跳转去 应用运维管理 服务,查看详细监控和告警。 围绕查看监控、告警的场景,我们希望用户能更聚焦对应的资源对象,我们提出“以应用为中心,构筑端到端的一站式运维体验”的设计理念。 围绕集群、节点、负载和Pod,我们提供融合了资源健康度和监控的独立运维页面,方便用户聚焦关注的资源。用户在一个页面即可快速评估资源健康度和异常项,同时查看各层级完成监控。 图6 监控中心优化 围绕告警,CCE集成了应用运维管理的告警通知和告警规则、 消息通知 服务的联系人管理,用户无需跳转,即可在CCE快速查看处理告警和进行配置。 图7 告警中心优化
  • 透明化:所见即所得、将复杂的过程透明化 像集群升级等关键操作,具体变更点及影响相对模糊,容易引起用户顾虑。对于此类操作,我们通过信息预先告知、过程可视可回退等设计理念,让用户有充分的知情权和掌控感,降低用户顾虑。 以集群升级为例,由于用户未清晰感知相关原理和可能存在的影响,升级过程不感知进度细节,不敢轻易升级。本次优化中,我们通过可视化等手段预先为用户呈现讲解原地升级的概念和原理,告知用户升级对插件等功能的影响,降低用户顾虑。 图8 集群升级流程展示 图9 集群升级插件影响 同时对于升级过程,如升级检查,拓扑图形式呈现检查过程,用户可感知资源视角的进度和异常情况。 图10 集群升级过程可视化 对于升级过程,用户如果遇到异常,可以随时调出伴随式监控,辅助定位问题,无需跳转查看监控。 图11 集群升级过程监控
  • 易用:一站式集群配置,开箱即用 不少用户反馈容器技术门槛相对较高,很多繁杂的配置用户自行摸索起来,效率低。日志等一些服务的开通和使用,需要到不同的服务里多次跳转等。针对这些复杂的配置问题,我们推出配置中心。在配置中心里,将配置项进行分类,方便用户统一管理同一类型配置。针对具体的配置项,我们提供配置解释、配置建议、给出配置风险,帮助用户“自己搞定”配置。 图4 配置中心优化 在运维管理上,我们推出云原生观测中心,实现运维管理的开箱即用。云原生观测中心将监控、日志服务集成进CCE服务,用户可以在CCE的页面内完成监控、日志的一键开通,并且在使用过程也不需要跳出CCE服务。 图5 日志管理优化
  • CCE突发弹性引擎(对接CCI)插件版本发布记录 表1 CCE突发弹性引擎(对接CCI)插件版本记录 插件版本 支持的集群版本 更新特性 1.5.8 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 适配CCE v1.29集群 1.5.2 v1.21 v1.23 v1.25 v1.27 v1.28 支持弹性至CCI 2.0 1.3.57 v1.21 v1.23 v1.25 v1.27 v1.28 适配CCE v1.28集群 1.3.54 v1.21 v1.23 v1.25 v1.27 修复部分问题 1.3.48 v1.21 v1.23 v1.25 v1.27 支持v1.25、v1.27版本集群 支持JuiceFS类型的存储 1.3.44 v1.17 v1.19 v1.21 v1.23 支持Pod配置全域弹性公网IP 1.3.35 v1.17 v1.19 v1.21 v1.23 支持原地升级镜像 支持ReadinessGates 1.3.25 v1.17 v1.19 v1.21 v1.23 支持DownwardAPI Volume 支持Projected Volume 支持自定义StorageClass 1.3.19 v1.17 v1.19 v1.21 v1.23 支持schedule profile 1.3.7 v1.17 v1.19 v1.21 v1.23 支持v1.21、v1.23版本集群 1.2.12 v1.13 v1.15 v1.17 v1.19 新增了部分metrics指标 支持HPA与CustomedHPA 支持将弹性到CCI的Pod中的hostPath转换为其它类型存储 修复Kubernetes Dashboard无法使用终端问题 1.2.5 v1.13 v1.15 v1.17 v1.19 支持 CCE Turbo 集群 自动清理CCI中不再被Pod依赖的资源 支持配置Requests与Limits不相等,弹性到CCI时的资源申请量以Limits为准 修复CCI命名空间不存在时插件卸载失败问题 增加对Pod规格超过CCI限制的创建请求的拦截 1.2.0 v1.13 v1.15 v1.17 v1.19 支持v1.19版本集群 支持SFS、SFS Turbo类型存储 支持CronJob 支持配置envFrom 日志文件自动转储 屏蔽TCPSocket类型健康检查 支持配置资源标签(pod-tag) 提升了性能和可靠性 修复了一些已知问题 1.0.5 v1.13 v1.15 v1.17 支持v1.17版本集群 父主题: 插件版本发布记录
  • CCE容器网络扩展指标插件版本发布记录 表1 CCE容器网络扩展指标插件版本记录 插件版本 支持的集群版本 更新特性 1.4.7 v1.23 v1.25 v1.27 v1.28 v1.29 修复部分问题 1.4.5 v1.23 v1.25 v1.27 v1.28 v1.29 支持普通容器Pod粒度的UDP、TCP drop、TCP connect fail监控 支持普通容器flow粒度的UDP、TCP drop监控 支持HCE 2.0 x86和HCE 2.0 ARM 支持CCE v1.29集群 1.3.10 v1.23 v1.25 v1.27 v1.28 修复部分问题 1.3.8 v1.23 v1.25 v1.27 v1.28 支持普通容器pod粒度的IP和TCP监控 支持普通容器flow粒度的IP和TCP监控 支持CCE v1.27集群 支持CCE v1.28集群 1.2.27 v1.19 v1.21 v1.23 v1.25 - 1.2.7 v1.19 v1.21 v1.23 v1.25 - 1.2.5 v1.19 v1.21 v1.23 v1.25 - 1.2.4 v1.19 v1.21 v1.23 v1.25 增加不支持EulerOS以外操作系统描述 1.2.2 v1.19 v1.21 v1.23 v1.25 本地Pod VPC网络健康检查 1.1.8 v1.19 v1.21 v1.23 v1.25 适配CCE v1.25集群 1.1.6 v1.19 v1.21 v1.23 - 1.1.5 v1.19 v1.21 v1.23 liveness健康检查优化 1.1.2 v1.19 v1.21 v1.23 支持操作系统类型宽匹配 1.0.1 v1.19 v1.21 支持流量统计数据持久化和本地socket通信. 父主题: 插件版本发布记录
  • 云原生监控插件版本发布记录 表1 云原生监控插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 3.10.1 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 NodeExporter组件升级至1.8.0版本 2.37.8 3.10.0 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 支持v1.29集群 2.37.8 3.9.5 v1.21 v1.23 v1.25 v1.27 v1.28 新增采集自定义指标的开关,默认开启 移除对1.17和1.19版本集群的支持 Grafana从云原生监控插件中移除,拆分为独立的Grafana插件 默认只采集免费指标和服务发现自定义指标 升级开源组件版本 2.37.8 3.8.2 v1.17 v1.19 v1.21 v1.23 v1.25 v1.27 修复部分问题 2.35.0 3.8.1 v1.17 v1.19 v1.21 v1.23 v1.25 v1.27 支持v1.27集群 优化Agent模式的资源占用并支持分片 2.35.0 3.7.3 v1.17 v1.19 v1.21 v1.23 v1.25 - 2.35.0 3.7.2 v1.17 v1.19 v1.21 v1.23 v1.25 支持采集Virtual-Kubelet Pod指标 2.35.0 3.7.1 v1.17 v1.19 v1.21 v1.23 v1.25 支持PrometheusAgent模式 2.35.0 3.6.6 v1.17 v1.19 v1.21 v1.23 v1.25 Grafana版本升级至7.5.17 支持containerd节点 2.35.0 3.5.1 v1.17 v1.19 v1.21 v1.23 - 2.35.0 3.5.0 v1.17 v1.19 v1.21 v1.23 更新至社区2.35.0版本 2.35.0 父主题: 插件版本发布记录
  • CCE集群版本号说明 CCE 集群基于社区Kubernetes版本迭代演进,因此集群版本号由社区Kubernetes版本和CCE补丁版本两部分共同构成,格式为vX.Y.Z-rN(例如v1.28.2-r0): Kubernetes版本:格式为X.Y,继承社区版本策略,其中X对应社区Kubernetes的主要版本,Y对应社区Kubernetes的次要版本,详情请参见社区Kubernetes版本策略。关于CCE支持的Kubernetes版本详情,请参见Kubernetes版本发布记录。 CCE补丁版本:格式形如v1.28.Z-rN,处于维护期的Kubernetes版本会不定期的发布新的补丁版本。当新的补丁版本较上一版本提供了新的特性时,Z版本号增加;当新的补丁版本较上一版本提供了Bugfix、漏洞修复或场景优化时,N版本号增加。关于CCE补丁版本详情,请参见补丁版本发布记录。
  • CCE集群版本生命周期表 Kubernetes版本号 当前状态 社区发布时间 CCE集群版本公测时间 CCE集群版本商用时间 CCE集群版本EOS(停止服务)时间 v1.29 已商用a 2023年11月 2024年4月 2024年6月 2026年6月 v1.28 已商用a 2023年8月 2023年12月 2024年2月 2026年2月 v1.27 已商用b 2023年04月 2023年08月 2023年10月 2025年10月 v1.25 已商用b 2022年08月 2022年11月 2023年03月 2025年03月 v1.23 已商用b 2021年12月 2022年04月 2022年09月 2024年09月 v1.21 EOS 2021年04月 2021年12月 2022年04月 2024年04月 v1.19 EOS 2020年08月 2020年12月 2021年03月 2023年09月 v1.17 EOS 2019年12月 / 2020年07月 2023年01月 v1.15 EOS 2019年06月 / 2019年12月 2022年09月 v1.13 EOS 2018年12月 / 2019年06月 2022年03月 v1.11 EOS 2018年08月 / 2018年10月 2021年03月 v1.9 EOS 2017年12月 / 2018年03月 2020年12月 CCE控制台支持最新两个商用版本的集群: a:支持通过控制台、API方式创建。 b:仅支持API方式创建。
  • CCE集群版本阶段说明 版本公测阶段:您可以通过CCE集群公测版本体验最新的Kubernetes版本特性,但需要注意该版本的稳定性未得到完全的验证,不适用于CCE服务SLA。 版本商用阶段:CCE集群商用版本经过充分验证,稳定可靠。您可以将该版本用于生产环境,享受CCE服务SLA保障。 版本EOS(停止服务)阶段:CCE集群版本EOS之后,CCE将不再支持对该版本的集群创建,同时不提供相应的技术支持,包含新特性更新、漏洞/问题修复、补丁升级以及工单指导、在线排查等客户支持,不再适用于CCE服务SLA保障。
  • Kubernetes Dashboard插件版本发布记录 表1 Kubernetes Dashboard插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 3.0.2 v1.27 v1.28 v1.29 支持v1.27、v1.28、v1.29集群 更新至社区7.3.2版本 7.3.2 2.2.27 v1.21 v1.23 v1.25 修复部分问题 2.7.0 2.2.7 v1.21 v1.23 v1.25 - 2.7.0 2.2.5 v1.21 v1.23 v1.25 插件与节点时区一致 2.7.0 2.2.3 v1.21 v1.23 v1.25 - 2.7.0 2.1.1 v1.19 v1.21 v1.23 适配CCE v1.23集群 更新至社区v2.5.0版本 2.5.0 2.0.10 v1.15 v1.17 v1.19 v1.21 适配CCE v1.21集群 2.0.0 2.0.4 v1.15 v1.17 v1.19 配置seccomp默认规则 2.0.0 2.0.3 v1.15 v1.17 v1.19 兼容CCE v1.15集群 2.0.0 2.0.2 v1.17 v1.19 适配CCE v1.19集群 2.0.0 2.0.1 v1.15 v1.17 支持鲲鹏集群 2.0.0 2.0.0 v1.17 支持对接CCE v1.17 2.0.0 父主题: 插件版本发布记录
  • 云原生日志视图 为了契合云原生业务特征,方便运维人员快速查询日志并准确定位故障,华为云CCE服务推出日志中心功能,提供云原生视角的专属页面版式。 图6 日志中心 日志中心支持根据K8s资源对象,如工作负载、Pod等进行过滤筛选。同时支持K8s管理日志、审计日志、业务日志等分类展示,整体页面更加简洁,日志主体内容及关联的K8s资源等重点信息更加突出,能够让运维人员聚焦故障点日志,排除干扰。 图7 多维度过滤筛选 日志中心还提供了日志采集策略的配置管理能力,支持自由配置采集的K8s资源对象。另外,为了进一步降低日志的使用门槛,日志中心提供了控制面日志、审计日志和容器标准输出日志的采集配置模板,支持一键开启或关闭。 图8 采集模板 本期我们针对告警中心和日志中心的能力给大家进行了简单的介绍。我们非常期待这些能力能够有效地提升您的运维体验。我们将会进行持续优化。期待您的使用以及宝贵的改进意见。
  • 一站式告警配置 为了让用户在极短时间内完成系统的基本告警配置,CCE服务联合 AOM 服务推出云原生专属告警模板,一键即可配置云原生系统的告警规则。此告警模板基于华为云日常运维经验总结提炼,内容涵盖了集群故障事件以及集群、节点、负载资源监控阈值等多方面的常见故障场景。用户只需要在CCE开启告警中心,绑定故障通知人员的邮箱或手机即可。 图2 一键开启 另外,告警中心还具备告警通知组配置、告警规则配置、告警查看回溯等能力,让运维人员能够一站式完成告警的配置和处理流程,完成闭环。 告警中心基于华为云 SMN 服务提供告警通知组能力。通过配置告警通知组,能够在故障产生时根据问题触发系统的种类和级别及时通知相应的运维人员介入处理。 图3 配置告警通知组 告警规则可通过告警模板一键下发,涵盖集群常用的指标告警和事件告警。当然,用户也可以自由选配这些告警规则。 图4 配置告警规则 当告警产生时,告警通知人会及时收到告警通知,并可以通过告警中心提供的可视化界面查看和消除告警。为方便用户对已发生故障进行回溯,告警中心也同样支持查看历史已经消除的告警。 图5 告警列表