华为云用户手册

  • 稳定高效升级 在升级稳定性提升方面,我们基于华为云上万次的升级经验沉淀,为用户提供了全方位的升级前检查项,检查项涵盖集群、节点、插件和应用、关键组件状态和配置、资源使用等方面,极大程度上为用户规避升级风险,实现稳定升级。同时,备份是业务连续性的重要保证,业界通用的Etcd备份方案存在无法备份集群组件和配置的问题,我们通过采用硬盘快照备份方案不仅为用户提供了完整的集群数据备份能力,且平均备份速度提升近10倍。 在升级效率方面,一方面由于Kubernetes社区只兼容相邻小版本,当版本跨度较大时,需要通过多次升级至最新版。我们为用户提供跨版本升级能力,最多支持跨4个大版本进行升级,如v1.23升级至v1.27,有效缩短用户升级路径,节约升级成本;另一方面,升级时间随着在集群规模正增长,我们在保证集群升级安全的前提下,最多支持100节点并发升级,让用户在更短的时间内完成集群节点升级,提高升级效率。 图3 简化集群升级路径 图4 集群节点并发升级
  • 过程业务无感 传统升级方式主要有节点替换升级和集群迁移升级,两种方式均会导致业务Pod重建,进而影响用户业务。华为云率先推出原地升级能力,只需更新CCE组件版本,节点无需任何变动,对集群中运行的Pod业务无任何影响,从而实现无损升级。同时,原地升级在速度上相比传统升级有大幅提升。 图2 传统升级和原地升级对比 同时,用户无需关注集群与插件版本的依赖关系,一键式升级将为您自动进行升级适配,省心省力。 此外,如果在升级过程中出现不可预期的情况,可以基于备份为用户实现快速恢复,使用户更容易掌控集群升级。
  • 丝滑交互体验 在升级引导方面,我们通过引导页面,给用户清晰直观呈现待升级集群的提示消息,让用户不会错过重要的升级通知。 图5 集群管理页面集群升级通知 为了降低用户理解成本,我们设计了升级小动画为用户阐述原地升级的概念和原理,帮助用户生动直观地了解集群升级流程和注意事项。 图6 集群升级动画 同时,我们推出了升级路径推荐功能,自动选择最佳的升级路径,并根据升级路径展示本次升级带来的特性更新和优化增强等。 图7 升级路径 在升级流程中,我们通过可视化的手段为用户详细呈现了升级的进度和异常情况,升级过程一目了然,使用户能掌控升级进度,降低焦虑。 图8 升级进度可视化 在升级检查异常时,我们基于不同资源汇聚了检查项信息,帮助用户快速查看异常项并提供修复建议,引导用户快速处理问题。 图9 升级异常诊断分析 在升级完成后,我们会帮助用户进行升级后自动验证,确保升级后的集群正常运行,节省用户时间和精力。 图10 自动健康诊断
  • 新增特性及特性增强 社区特性的Alpha阶段默认禁用、Beta阶段一般默认启用、GA阶段将一直默认启用,且不能禁用(会在后续版本中删除这个开关功能)。CCE对新特性的策略与社区保持一致。 版本偏差策略扩展至3个版本 从1.28控制平面/1.25 工作节点开始,Kubernetes版本偏差策略将支持的控制平面/工作节点偏差扩展到 3 个版本。 这使得节点的年度次要版本升级成为可能,同时保持受支持的次要版本。更多细节请参考版本偏差策略。 可追溯的默认 StorageClass 进阶至 GA 在Kubernetes 1.28版本,可追溯默认 StorageClass 赋值现已进阶至GA。 这项增强特性极大地改进了默认的StorageClasses为PersistentVolumeClaim (PVC) 赋值的方式。 PersistentVolume (PV) 控制器已修改为:当未设置 storageClassName 时,自动向任何未绑定的 PersistentVolumeClaim 分配一个默认的 StorageClass。此外,API 服务器中的 PersistentVolumeClaim 准入验证机制也已调整为允许将值从未设置状态更改为实际的 StorageClass 名称。更多使用细节请参考默认StorageClass赋值。 原生边车容器(Alpha) 在Kubernetes 1.28版本,原生边车容器以Alpha版本正式发布。其在 Init 容器中添加了一个新的 restartPolicy 字段, 该字段在 SidecarContainers 特性门控启用时可用。需要注意的是,原生边车容器目前仍有些问题需要解决,因此K8S社区建议仅在 Alpha 阶段的短期测试集群中使用边车功能。 更多使用细节请参考原生边车容器。 混合版本代理(Alpha) 在Kubernetes 1.28版本,发布了用于改进集群安全升级的新机制(混合版本代理)。该特性为Alpha特性。 当集群进行升级时,集群中不同版本的 kube-apiserver 为不同的内置资源集(组、版本、资源)提供服务。在这种情况下资源请求如果由任一可用的 apiserver 提供服务,请求可能会到达无法解析此请求资源的 apiserver 中,导致请求失败。该特性能解决该问题。(主要注意的是,CCE本身提供的升级能力即可做到无损升级,因此不存在该特性涉及的场景)。更多使用细节请参考混合版本代理。 节点非体面关闭特性达到 GA 在Kubernetes 1.28版本,节点非体面关闭特性达到GA阶段。当一个节点被关闭但没有被 Kubelet 的 Node Shutdown Manager 检测到时,StatefulSet 的 Pod 将会停留在终止状态,并且不能移动到新运行的节点上。当用户确认该节点已经处于不可恢复的情况下,可以手动为Node打上out-of-service的污点,以使得该节点上的StatefulSet的Pod和VolumeAttachments被强制删除,并在健康的Node上创建相应的Pod。更多使用细节请参考节点非体面关闭。 NodeSwap特性达到Beta 在Kubernetes 1.28版本,NodeSwap能力进阶至Beta版本。目前仍然处于默认关闭状态,需要使用NodeSwap门控打开。该特性可以为Linux节点上运行的Kubernetes工作负载逐个节点地配置内存交换。需要注意的是,该特性虽然进阶至Beta特性,但仍然存在一些需要增强的问题和安全风险。更多使用细节请参考NodeSwap特性。 Job相关特性 在Kubernetes 1.28版本,增加了Pod更换策略和基于带索引Job的回退限制两个alpha特性。 Pod更换策略 默认情况下,当 Pod 进入终止(Terminating)状态(例如由于抢占或驱逐机制)时,Kubernetes 会立即创建一个替换的 Pod,因此这时会有两个 Pod 同时运行。 在Kubernetes 1.28版本中可以使用JobPodReplacementPolicy 来启用该特性。可以在Job的Spec中定义podReplacementPolicy,目前仅可设置为Failed。在设置为Failed之后,Pod 仅在达到 Failed 阶段时才会被替换,而不是在它们处于终止过程中(Terminating)时被替换。此外,您可以检查 Job 的 .status.termination 字段。该字段的值表示终止过程中的 Job 所关联的 Pod 数量。 带索引Job的回退限制 默认情况下,带索引的 Job(Indexed Job)的 Pod 失败情况会被记录下来,受 .spec.backoffLimit 字段所设置的全局重试次数限制。这意味着,如果存在某个索引值的 Pod 一直持续失败,则会 Pod 会被重新启动,直到重试次数达到限制值。 一旦达到限制值,整个 Job 将被标记为失败,并且对应某些索引的 Pod 甚至可能从不曾被启动。 在Kubernetes 1.28版本中,可以通过启用集群的 JobBackoffLimitPerIndex 特性门控来启用此特性。开启之后,允许在创建带索引的 Job(Indexed Job)时指定 .spec.backoffLimitPerIndex 字段。当某个Job的失败次数超过设定的上限时,将不再进行重试。 CEL相关特性 在Kubernetes 1.28版本,CEL能力进行了相应的增强。 CRD 使用 CEL 进行 Validate 的特性进阶至Beta 该特性在v1.25版本就已经升级为Beta版本。通过将 CEL 表达式直接集成在 CRD 中, 可以使开发者在不使用 Webhook 的情况下解决大部分对 CR 实例进行验证的用例。在未来的版本,将继续扩展 CEL 表达式的功能,以支持默认值和 CRD 转换。 基于CEL的准入控制进阶至Beta 基于通用表达式语言 (CEL) 的准入控制是可定制的,对于 kube-apiserver 接受到的请求,可以使用 CEL 表达式来决定是否接受或拒绝请求,可作为 Webhook 准入控制的一种替代方案。在 v1.28 中,CEL 准入控制被升级为 Beta,同时添加了一些新功能,包括但不限于: ValidatingAdmissionPolicy 类型检查现在可以正确处理 CEL 表达式中的 “authorizer” 变量。 ValidatingAdmissionPolicy 支持对 messageExpression 字段进行类型检查。 kube-controller-manager 组件新增 ValidatingAdmissionPolicy 控制器,用来对 ValidatingAdmissionPolicy 中的 CEL 表达式做类型检查,并将原因保存在状态字段中。 支持变量组合,可以在 ValidatingAdmissionPolicy 中定义变量,然后在定义其他变量时使用它。 新增 CEL 库函数支持对 Kubernetes 的 resource.Quantity 类型进行解析。 其它特性说明 在Kubernetes 1.28版本,ServiceNodePortStaticSubrange 特性为beta,允许保留静态端口范围,避免与动态分配端口冲突。具体细节请参考为NodePort Service分配端口时避免冲突。 在Kubernetes 1.28版本,增加了alpha特性ConsistentListFromCache,允许kube-apiserver从缓存中提供一致性列表,Get和List请求可以从缓存中读取数据,而不需要从etcd中获取。 在Kubernetes 1.28版本,kubelet能够配置drop-in目录(alpha特性)。该特性允许向kubelet添加对“--config-dir”标志的支持,以允许用户指定一个插入目录,该目录将覆盖位于/etc/kubernetes/kubelet.conf位置的Kubelet的配置。 在Kubernetes 1.28版本,ExpandedDNSConfig 升级至GA,默认会被打开。该参数用于允许扩展DNS的配置。 在Kubernetes 1.28版本,提供Alpha特性CRD Validation Ratcheting。该特性允许Patch或者Update请求没有更改任何不合法的字段,将允许CR验证失败。 在Kubernetes 1.28版本,kube-controller-manager添加了--concurrent-cron-job-syncs flag用来设置cron job controller的workers数。
  • API变更与弃用 在Kubernetes 1.28版本,移除特性NetworkPolicyStatus,因此Network Policy不再有status属性。 在Kubernetes 1.28版本,Job对象中增加了新的annotationbatch.kubernetes.io/cronJob-scheduled-timestamp,表示Job的创建时间。 在Kubernetes 1.28版本,Job API中添加podReplacementPolicy和terminating字段,当前一旦先前创建的pod终止,Job就会立即启动替换pod。添加字段允许用户指定是在先前的Pod终止后立即更换Pod(原行为),还是在现有的Pod完全终止后才替换Pod(新行为)。这是一项 Alpha 级别特性,您可以通过在集群中启用JobPodReplacementPolicy 来启用该特性。 在Kubernetes 1.28版本,Job支持BackoffLimitPerIndex字段。当前使用的运行Job的策略是Job中的整个Pod共享一个Backoff机制,当Job达到次Backoff的限制时,整个Job都会被标记为失败,并清理资源,包括尚未运行的index。此字段允许对单个的index设置Backoff。更多信息请参见带索引Job的Backoff限制。 在Kubernetes 1.28版本,添加ServedVersions字段到 StorageVersion API中。该变化由混合代理版本特性引入。该增加字段ServedVersions用于表明 API服务 器可以提供的版本。 在Kubernetes 1.28版本,SelfSubjectReview 添加到authentication.k8s.io/v1中,并且kubectl auth whoami走向GA。 在Kubernetes 1.28版本,PersistentVolume有了一个新的字段LastPhaseTransitionTime,用来保存最近一次volume转变Phase的时间。 在Kubernetes 1.28版本,PVC.Status中移除resizeStatus,使用AllocatedResourceStatus替代。resizeStatus表示调整存储大小操作的状态,默认为空字符串。 在Kubernetes 1.28版本,设置了hostNetwork: true并且定义了ports的Pods,自动设置hostport字段。 在Kubernetes 1.28版本,StatefulSet的Pod索引设置为Pod的标签statefulset.kubernetes.io/pod-index。 在Kubernetes 1.28版本,Pod的Condition字段中的PodHasNetwork重命名为PodReadyToStartContainers,用来表明网络、卷等已成功创建,sandbox pod已经创建完成,可以启动容器。 在Kubernetes 1.28版本,在KubeSchedulerConfiguration中添加了新的配置选项 delayCacheUntilActive, 该参数为true时,非master节点的kube-scheduler不会缓存调度信息。这为非主节点的内存减缓了压力,但会导致主节点发生故障时,减慢故障转移的速度。 在Kubernetes 1.28版本,在admissionregistration.k8s.io/v1alpha1.ValidatingAdmissionPolicy中添加namespaceParamRef字段。 在Kubernetes 1.28版本,在CRD validation rules中添加reason和fieldPath,允许用户指定验证失败的原因和字段路径。 在Kubernetes 1.28版本,ValidatingAdmissionPolicy的CEL表达式通过namespaceObject支持namespace访问。 在Kubernetes 1.28版本,将API groups ValidatingAdmissionPolicy 和ValidatingAdmissionPolicyBinding 提升到betav1。 在Kubernetes 1.28版本,ValidatingAdmissionPolicy 扩展了messageExpression字段,用来检查已解析类型。
  • 特性门禁及命令行参数 在Kubernetes 1.28版本,kubelet移除了flag –short。因此kubectl version 默认输出与kubectl version –short相同。 在Kubernetes 1.28版本,kube-controller-manager废弃flag--volume-host-cidr-denylist和--volume-host-allow-local-loopback。--volume-host-cidr-denylist是用逗号分隔的一个CIDR范围列表,禁止使用这些地址上的卷插件。--volume-host-allow-local-loopback为false时,禁止本地回路IP地址和--volume-host-cidr-denylist中所指定的CIDR范围。 在Kubernetes 1.28版本,kubelet --azure-container-registry-config 被弃用并在未来的版本中会被删除。 请使用 --image-credential-provider-config 和 --image-credential-provider-bin-dir 来设置。 在Kubernetes 1.28版本,kube-scheduler: 删除了 --lock-object-namespace 和 --lock-object-name。 请使用 --leader-elect-resource-namespace 和 --leader-elect-resource-name 或 ComponentConfig 来配置这些参数。(--lock-object-namespace用来定义锁对象的命名空间,--lock-object-name用来定义锁对象的名称) 在Kubernetes 1.28版本,KMSv1 已弃用,以后只会接收安全更新。请改用 KMSv2。在未来版本中, 设置 --feature-gates=KMSv1=true 以使用已弃用的 KMSv1 功能。 在Kubernetes 1.28版本,移除了如下特性门禁:DelegateFSGroupTo CS IDriver、DevicePlugins、KubeletCredentialProviders、MixedProtocolLBService、ServiceInternalTrafficPolicy、ServiceIPStaticSubrange、EndpointSliceTerminatingCondition。
  • 重要说明 在Kubernetes 1.28版本,调度框架发生变化,减少无用的重试,从而提高调度程序的整体性能。如果开发人员在集群中使用了自定义调度程序插件,请参见调度框架变化进行适配升级。 在Kubernetes 1.28 版本,Ceph FS 树内插件已在 v1.28 中弃用,并计划在 v1.31 中删除(社区没有计划进行 CSI 迁移)。 建议使用 Ceph CSI 第三方存储驱动程序作为替代方案。 在Kubernetes 1.28 版本,Ceph RBD 树内插件已在 v1.28 中弃用,并计划在 v1.31 中删除(社区没有计划进行 CSI 迁移)。建议使用 RBD 模式的 Ceph CSI 第三方存储驱动程序作为替代方案。
  • 内容上新:实操案例丰富,满足用户需求 CCE文档的内容优化是为了让用户能够在使用CCE时轻松获取所需信息,配置系统并应对各种关键场景。 首先,我们引入了一份详尽的CCE配置参考手册,其中列出了各类参数的详细说明,包括集群、节点等各项配置。用户可以在配置手册中找到所需的参数信息,从而更好地理解和掌握系统配置。 图3 配置手册 此外,我们还新增多篇CCE最佳实践,覆盖了一系列关键场景,如基于容器的CI/CD、应用上云、日志监控等,旨在帮助用户在实际应用中成功地配置和管理云原生环境。用户可以依照这些最佳实践,快速了解如何部署容器应用、将服务迁移到云端以及如何设置有效的日志监控系统。这些实际场景的指导有助于用户将理论知识转化为实际操作,提高技能水平,同时减少配置和部署的复杂性。 图4 最佳实践
  • 智能问答增强:用户体验更友好,问题快速解答 在CCE文档的智能问答部分,我们新增了超过800条高质量问答对,旨在全面覆盖CCE的常见问题和疑虑。这意味着用户现在可以像与客服交互一样,通过智能问答系统获得即时反馈,无需漫长的搜索或等待。 这项改进的好处不仅仅在于提供更快速的解答,还在于增强了文档的互动性和友好度。用户不再需要翻阅大量文档或手动搜索答案,而是可以直接向智能问答系统提问。这种自然语言查询的方式使文档更加与用户互动,打破了传统文档的单向性质。用户可以随时提出问题,获得立即的、个性化的答案,从而提高了文档的实用性和用户体验。 图6 智能问答
  • 内容重构升级:核心知识更可靠,操作更明确 对文档内容进行了重构与升级,更新了关键操作指导,确保内容更加易用。 例如我们对容器存储相关文档进行了全面的重构,容器存储是云原生环境中不可或缺的一部分,因为它涉及到应用程序数据的持久性和可靠性。我们重新审视并更新了存储文档,确保其内容涵盖了各种存储解决方案和最佳实践,并将内容从以K8s对象角度更新为存储类型角度组织,使得用户能够更加直观的从使用存储的角度查找并使用文档。 图5 存储内容重构升级
  • 结构优化:知识体系完善,学习路径清晰 为了帮助用户更直观地获取所需信息,在内容结构上,我们针对用户学习和检索行为对文档目录进行了优化,使用户能够更加清晰了解CCE的学习使用路径。用户可以轻松地跟随这条路径,从入门级别的基础操作指导开始,逐步深入到更高级的管理和运维实践。这种渐进式学习路径帮助用户建立坚实的基础,从而更好地理解和掌握云原生技术。 图1 文档目录优化 其次,我们加强了文档之间的关联性。每篇文档都与其他相关文档形成了链接,帮助用户在需要的时候能够轻松地跳转到相关主题。 确保用户可以更全面地了解整个云原生技术生态系统。 图2 文档关联性增强
  • 全景观测:多维度全场景监控视图 CCE监控中心提供集群内涵盖基础资源、K8s资源对象、K8s服务组件、K8s集群Node、云原生上层业务等五大类,总计近数十万项指标的全景可观测能力,致力打造一站式运维的极致体验。 集群健康总览:监控中心首页会呈现整个集群中关键的控制面组件信息、资源占用最高的组件等,能让您对集群的健康情况一目了然。 图4 集群健康总览 资源健康总览:监控中心提供了节点、工作负载、POD等Kubernetes资源的独立监控页面。资源监控页面中提供资源的基本监控信息,并且能够纵览对应的资源概况,快速发现异常对象。 图5 资源健康总览 关联资源一屏可见:在监控中心中,在资源监控详情页中能看到关联资源的监控详情,并且可以方便的进行跳转查看(如在看节点监控时可以下钻至节点上的Pod,查看Pod的监控)。 图6 资源监控详情页 监控大盘:监控中心中提供了丰富的监控大盘,从集群、Node、控制组件等不同的视角呈现集群的健康状态。 图7 监控中心仪表盘
  • 开源增强:兼容开源Promtheus,全方位能力提升 Prometheus是CNCF社区推荐的云原生监控方案,也是业界云原生监控的事实标准,它的服务发现、时序数据等能力能够很好地解决云原生场景下多变、海量数据的问题。同时,Prometheus也是用户使用最多的监控工具。 为了更好地符合用户的使用习惯,降低学习成本,CCE提供基于Prometheus开源生态能力的监控组件,兼容Prometheus的开源配置,同时在开源能力基础上对安全、性能、安装部署等方面做了商用增强。 在安全上,使用防护能力更强的华为自研的加密算法,对Prometheus使用的敏感信息进行加密;在性能上,一方面对监控指标进行分层管理,满足不同类型用户的监控诉求,另一方面,降低本地存储数据的时效,有效地降低了用户的资源消耗;在安装部署上,需要用户配置的参数由30+优化至0配置一键安装。 除此之外,针对Prometheus在海量数据下资源消耗巨大的问题,我们还提供了托管Prometheus+轻量化采集Agent的解决方案,用户侧仅需要负担轻量化采集Agent的资源即可支持海量指标监控,同时大大降低了用户的运维复杂度。 对比维度 开源Prometheus CCE监控套件 安全性 认证信息使用base64加密,安全防护弱 认证信息使用华为云自研算法加密,安全防护强 资源消耗 200节点消耗256G内存 200节点消耗8G内存 安装部署 需要准备30+的yaml部署文件 页面一键安装,无需配置 指标管理 指标管理需要后台找到对应的采集任务(CRD)进行配置 监控指标支持通过界面分层管理,基础指标默认启用,高级指标灵活配置(即将上线)
  • 全版本跟随!CCE将从1.27版本开始对所有Kubernetes版本提供商业支持 发布时间:2023/09/26 CCE服务Kubernetes版本支持策略将进行优化,从Kubernetes 1.27版本开始,CCE将对每个社区版本均提供商用支持。CCE集群1.27版本计划于2023年10月正式商用,CCE集群1.28版本计划于2023年12月支持。 图1 版本支持策略升级 父主题: 产品体验优化说明
  • 透明化:所见即所得、将复杂的过程透明化 像集群升级等关键操作,具体变更点及影响相对模糊,容易引起用户顾虑。对于此类操作,我们通过信息预先告知、过程可视可回退等设计理念,让用户有充分的知情权和掌控感,降低用户顾虑。 以集群升级为例,由于用户未清晰感知相关原理和可能存在的影响,升级过程不感知进度细节,不敢轻易升级。本次优化中,我们通过可视化等手段预先为用户呈现讲解原地升级的概念和原理,告知用户升级对插件等功能的影响,降低用户顾虑。 图8 集群升级流程展示 图9 集群升级插件影响 同时对于升级过程,如升级检查,拓扑图形式呈现检查过程,用户可感知资源视角的进度和异常情况。 图10 集群升级过程可视化 对于升级过程,用户如果遇到异常,可以随时调出伴随式监控,辅助定位问题,无需跳转查看监控。 图11 集群升级过程监控
  • 场景化:聚焦用户场景,无跳出运维管理 在实地拜访中,我们发现工程师近80%的工作场景都在进行运维相关的工作。而之前CCE提供的是基础的监控能力,用户需要跳转去 应用运维管理 服务,查看详细监控和告警。 围绕查看监控、告警的场景,我们希望用户能更聚焦对应的资源对象,我们提出“以应用为中心,构筑端到端的一站式运维体验”的设计理念。 围绕集群、节点、负载和Pod,我们提供融合了资源健康度和监控的独立运维页面,方便用户聚焦关注的资源。用户在一个页面即可快速评估资源健康度和异常项,同时查看各层级完成监控。 图6 监控中心优化 围绕告警,CCE集成了应用运维管理的告警通知和告警规则、 消息通知 服务的联系人管理,用户无需跳转,即可在CCE快速查看处理告警和进行配置。 图7 告警中心优化
  • 易用:一站式集群配置,开箱即用 不少用户反馈容器技术门槛相对较高,很多繁杂的配置用户自行摸索起来,效率低。日志等一些服务的开通和使用,需要到不同的服务里多次跳转等。针对这些复杂的配置问题,我们推出配置中心。在配置中心里,将配置项进行分类,方便用户统一管理同一类型配置。针对具体的配置项,我们提供配置解释、配置建议、给出配置风险,帮助用户“自己搞定”配置。 图4 配置中心优化 在运维管理上,我们推出云原生观测中心,实现运维管理的开箱即用。云原生观测中心将监控、日志服务集成进CCE服务,用户可以在CCE的页面内完成监控、日志的一键开通,并且在使用过程也不需要跳出CCE服务。 图5 日志管理优化
  • 集群管理页面整体优化 本次升级后,集群管理页面迎来如下调整: 集群分类 CCE品牌形象迎来了全新升级。本次升级后,CCE提供两种类型的集群分别命名为CCE Standard集群和 CCE Turbo 集群,集群分类更具标识度。请注意,CCE Standard集群并非新的集群类型,而是由原CCE集群改名而来。 集群卡片设计 集群卡片更简洁,但更实用。取消集群卡片上原有的按钮图标设计,所有入口均以中文进行标识,并折叠不常用按钮,更简单、更清晰。 集群功能分类 本次升级后,取消原集群功能导航栏中的资源、运维两大类别,新类别根据Kubernetes原生功能与CCE提供的集群设施管理功能、运维观测功能进行区分,在分类上更加具体,清晰明了。
  • 插件中心页面优化 插件中心已进行了全面优化和改进: 插件分类全面升级,帮助您根据需求快速选择插件。 插件名称和简介实现业务具象化,帮助您更加直观地了解插件的应用场景,并为您提供有效的插件使用指导。 表1 插件分类与命名 插件分类 插件名称 原名 备注 容器调度与弹性 CCE集群弹性引擎 autoscaler CCE提供 CCE容器弹性引擎 cce-hpa-controller CCE提供 CCE突发弹性引擎 (对接CCI) virtual-kubelet CCE提供 Volcano调度器 volcano CCE提供 云原生可观测性 云原生监控插件 kube-prometheus-stack CCE提供 云原生日志采集插件 log-agent CCE提供 CCE节点故障检测 npd CCE提供 CCE容器网络扩展指标 dolphin CCE提供 Kubernetes Metrics Server metrics-server 精选开源 Prometheus prometheus CCE提供 云原生异构计算 CCE AI套件 (NVIDIA GPU) gpu-device-plugin (gpu-beta) CCE提供 CCE AI套件 (Ascend NPU) huawei-npu CCE提供 容器网络 CoreDNS 域名 解析 coredns CCE提供 节点本地域名解析加速 node-local-dns 精选开源 NGINX Ingress控制器 nginx-ingress 精选开源 容器存储 CCE容器存储插件 (Everest) everest CCE提供 CCE容器存储插件 (FlexVolume) storage-driver CCE提供 容器安全 CCE密钥管理 (对接DEW) dew-provider CCE提供 容器镜像签名验证 swr-cosign CCE提供 其他 Kubernetes Dashboard dashboard 精选开源 CCE集群备份恢复 e-backup CCE提供 Kubernetes Web终端 web-terminal 精选开源 Kubernetes 资源回收 rc-recycler CCE提供 容器镜像P2P下载加速 p2paddon CCE提供
  • 云原生观测全面升级 监控、日志、告警构建全新的云原生观测能力,帮助开发者实时了解系统的运行状态,为问题的排查和诊断提供数据支撑,提供定制化的云原生观测方案,分别从基础设施层、容器和应用层构建完整的云原生观测生态,打造出一个可视化的运维观测体系。 监控中心 监控中心容器洞察、健康诊断、仪表盘等容器监控与诊断能力,可实时监控应用及资源,采集各项指标及事件等数据以分析应用健康状态,提供全面、清晰、多维度 数据可视化 能力,可实现故障快速定位,并兼容主流开源组件。 容器洞察:容器洞察功能提供容器视角的可视化视图,支持集群、节点、工作负载和 Pod 等多种维度的监控视图,支持多级下钻与关联分析。 健康诊断:集群健康诊断基于容器运维专家经验对集群健康状况进行全面检查,能够及时发现集群故障与潜在风险并给出修复建议。 仪表盘:仪表盘功能内置常见的容器监控大盘,如Kube-apiserver组件监控、CoreDNS域名解析组件监控和PVC监控等。 日志中心 CCE提供日志采集插件对接 云日志服务LTS ,您可以一站式采集Kubernetes集群的业务日志、控制面的组件日志和审计日志。 告警中心 集群内置集群告警规则最佳实践,覆盖常见的集群和应用故障场景,支持一键开启能力,在集群发生故障时能够及时发现并预警,协助您维护业务稳定性。
  • 弃用和移除 Kubernetes 1.27版本 在Kubernetes 1.27版本,针对卷扩展 GA 特性的以下特性门禁将被移除,且不得再在 --feature-gates 标志中引用。(ExpandCSIVolumes,ExpandInUsePersistentVolumes,ExpandPersistentVolumes) 在Kubernetes 1.27版本,移除--master-service-namespace 命令行参数。该参数支持指定在何处创建名为kubernetes的Service来表示API服务器。自v1.26版本已被弃用,1.27版本正式移除。 在Kubernetes 1.27版本,移除 ControllerManagerLeaderMigration 特性门禁。Leader Migration 提供了一种机制,让 HA 集群在升级多副本的控制平面时通过在 kube-controller-manager 和 cloud-controller-manager 这两个组件之间共享的资源锁,安全地迁移“特定于云平台”的控制器。特性自 v1.24 正式发布,被无条件启用, 在 v1.27 版本中此特性门禁选项将被移除。 在Kubernetes 1.27版本,移除 --enable-taint-manager 命令行参数。该参数支持的特性基于污点的驱逐已被默认启用, 且在标志被移除时也将继续被隐式启用。 在Kubernetes 1.27版本,移除--pod-eviction-timeout 命令行参数。弃用的命令行参数 --pod-eviction-timeout 将被从 kube-controller-manager 中移除。 在Kubernetes 1.27版本,移除 CSI Migration 特性门禁。CSI migration 程序允许从树内卷插件移动到树外 CSI 驱动程序。 CSI 迁移自 Kubernetes v1.16 起正式发布,关联的 CSIMigration 特性门禁将在 v1.27 中被移除。 在Kubernetes 1.27版本,移除 CSIInlineVolume 特性门禁。CSI Ephemeral Volume 特性允许在 Pod 规约中直接指定 CSI 卷作为临时使用场景。这些 CSI 卷可用于使用挂载的卷直接在 Pod 内注入任意状态,例如配置、Secret、身份、变量或类似信息。 此特性在 v1.25 中进阶至正式发布。因此,此特性门禁 CSIInlineVolume 将在 v1.27 版本中移除。 在Kubernetes 1.27版本,移除 EphemeralContainers 特性门禁。对于 Kubernetes v1.27,临时容器的 API 支持被无条件启用;EphemeralContainers 特性门禁将被移除。 在Kubernetes 1.27版本,移除 LocalStorageCapacityIsolation 特性门禁。Local Ephemeral Storage Capacity Isolation 特性在 v1.25 中进阶至正式发布。此特性支持 emptyDir 卷这类 Pod 之间本地临时存储的容量隔离, 因此可以硬性限制 Pod 对共享资源的消耗。如果本地临时存储的消耗超过了配置的限制,kubelet 将驱逐 Pod。 特性门禁 LocalStorageCapacityIsolation 将在 v1.27 版本中被移除。 在Kubernetes 1.27版本,移除 NetworkPolicyEndPort 特性门禁。Kubernetes v1.25 版本将 NetworkPolicy 中的 endPort 进阶至正式发布。 支持 endPort 字段的 NetworkPolicy 提供程序可用于指定一系列端口以应用 NetworkPolicy。 在Kubernetes 1.27版本,移除 StatefulSetMinReadySeconds 特性门禁。对于作为 StatefulSet 一部分的 Pod,只有当 Pod 至少在 minReadySeconds 中指定的持续期内可用(并通过检查)时,Kubernetes 才会将此 Pod 标记为只读。 该特性在 Kubernetes v1.25 中正式发布,StatefulSetMinReadySeconds 特性门禁将锁定为 true,并在 v1.27 版本中被移除。 在Kubernetes 1.27版本,移除 IdentifyPodOS 特性门禁。启用该特性门禁,您可以为 Pod 指定操作系统,此项特性支持自 v1.25 版本进入稳定。 IdentifyPodOS 特性门禁将在 Kubernetes v1.27 中被移除。 在Kubernetes 1.27版本,移除 DaemonSetUpdateSurge 特性门禁。Kubernetes v1.25 版本还稳定了对 DaemonSet Pod 的浪涌支持, 其实现是为了最大限度地减少部署期间 DaemonSet 的停机时间。 DaemonSetUpdateSurge 特性门禁将在 Kubernetes v1.27 中被移除。 在Kubernetes 1.27版本,移除 --container-runtime 命令行参数。kubelet 接受一个已弃用的命令行参数 --container-runtime, 并且在移除 dockershim 代码后,唯一有效的值将是 remote。 Kubernetes v1.27 将移除该参数,该参数自 v1.24 版本以来已被弃用。 Kubernetes 1.26版本 移除v2beta2版本的HorizontalPodAutoscaler API HorizontalPodAutoscaler的autoscaling/v2beta2 API版本将不再在1.26版本中提供,详情请参见各发行版本中移除的API。 用户应迁移至autoscaling/v2版本的API。 移除v1beta1版本的流量控制API组 在Kubernetes 1.26版本后,开始不再提供flowcontrol.apiserver.k8s.io/v1beta1 API版本的FlowSchema和PriorityLevelConfiguration,详情请参见各发行版本中移除的API。但此API从Kubernetes 1.23版本开始,可以使用flowcontrol.apiserver.k8s.io/v1beta2;从Kubernetes 1.26版本开始,可以使用flowcontrol.apiserver.k8s.io/v1beta3。 存储驱动的弃用和移除,移除云服务厂商的in-tree卷驱动。 移除kube-proxy userspace模式 在Kubernetes 1.26版本,Userspace代理模式已被移除,已弃用的Userspace代理模式不再受Linux或Windows支持。Linux用户应使用Iptables或IPVS,Windows用户应使用Kernelspace,现在使用--mode userspace会失败。 Windows winkernel kube-proxy不再支持Windows HNS v1 APIs。 弃用--prune-whitelist标志 在Kubernetes 1.26版本,为了支持Inclusive Naming Initiative,--prune-whitelist标志将被弃用,并替换为--prune-allowlist,该标志在未来将彻底移除。 移除动态Kubelet配置 DynamicKubeletConfig特性门控移除,通过API动态更新节点上的Kubelet配置。在Kubernetes 1.24版本中从Kubelet移除相关代码,在Kubernetes 1.26版本从APIServer移除相关代码,移除该逻辑有助于简化代码提升可靠性,推荐方式是修改Kubelet配置文件然后重启Kubelet。更多信息,请参见在Kubernetes 1.26版本从APIServer移除相关代码。 弃用kube-apiserver命令行参数 在Kubernetes 1.26版本,正式标记弃用 --master-service-namespace 命令行参数,它对APIServer没有任何效果。 弃用kubectl run命令行参数 在Kubernetes 1.26版本,kubectl run未使用的几个子命令将被标记为弃用,并在未来某个版本移除,包括--cascade、--filename、--force、--grace-period、--kustomize、--recursive、--timeout、--wait等这些子命令。 移除与日志相关的原有命令行参数 在Kubernetes 1.26版本,将移除一些与日志相关的命令行参数,这些参数在之前的版本已被弃用。
  • 弃用和移除 Kubernetes 1.25版本 清理iptables链的所有权 Kubernetes通常创建iptables链来确保这些网络数据包到达, 这些iptables链及其名称属于Kubernetes内部实现的细节,仅供内部使用场景,目前有些组件依赖于这些内部实现细节,Kubernetes总体上不希望支持某些工具依赖这些内部实现细节。详细信息,请参见Kubernetes的iptables链不是API。 在Kubernetes 1.25版本后,Kubelet通过IPTablesCleanup特性门控分阶段完成迁移,是为了不在NAT表中创建iptables链,例如KUBE-MARK-DROP、KUBE-MARK-MASQ、KUBE-POSTROUTING。关于清理iptables链所有权的信息,请参见清理IPTables链的所有权。 存储驱动的弃用和移除,移除云服务厂商的in-tree卷驱动。 Kubernetes 1.24版本 在Kubernetes 1.24版本后,Service.Spec.LoadBalancerIP被弃用,因为它无法用于双栈协议。请使用自定义annotation。 在Kubernetes 1.24版本后,kube-apiserver移除参数--address、--insecure-bind-address、--port、--insecure-port=0。 在Kubernetes 1.24版本后,kube-controller-manager和kube-scheduler移除启动参数--port=0和--address。 在Kubernetes 1.24版本后,kube-apiserver --audit-log-version和--audit-webhook-version仅支持audit.k8s.io/v1,Kubernetes 1.24移除audit.k8s.io/v1[alpha|beta]1,只能使用audit.k8s.io/v1。 在Kubernetes 1.24版本后,kubelet移除启动参数--network-plugin,仅当容器运行环境设置为Docker时,此特定于Docker的参数才有效,并会随着Dockershim一起删除。 在Kubernetes 1.24版本后,动态日志清理功能已经被废弃,并在Kubernetes 1.24版本移除。该功能引入了一个日志过滤器,可以应用于所有Kubernetes系统组件的日志,以防止各种类型的敏感信息通过日志泄漏。此功能可能导致日志阻塞,所以废弃,更多信息请参见Dynamic log sanitization和 KEP-1753。 VolumeSnapshot v1beta1 CRD在Kubernetes 1.20版本中被废弃,在Kubernetes 1.24版本中移除,需改用v1版本。 在Kubernetes 1.24版本后,移除自1.11版本就废弃的service annotation tolerate-unready-endpoints,使用Service.spec.publishNotReadyAddresses代替。 在Kubernetes 1.24版本后,废弃metadata.clusterName字段,并将在下一个版本中删除。 Kubernetes 1.24及以后的版本,去除了kube-proxy监听NodePort的逻辑,在NodePort与内核net.ipv4.ip_local_port_range范围有冲突的情况下,可能会导致偶发的TCP无法连接的情况,导致健康检查失败、业务异常等问题。升级前,请确保集群没有NodePort端口与任意节点net.ipv4.ip_local_port_range范围存在冲突。更多信息,请参见Kubernetes社区PR。
  • 主要特性 Kubernetes 1.25版本 Pod Security Admission进入稳定阶段,并移除PodSecurityPolicy PodSecurityPolicy被废弃,并提供Pod Security Admission取代,具体的迁移方法可参见从PodSecurityPolicy迁移到内置的PodSecurity准入控制器。 Ephemeral Containers进入稳定阶段 临时容器是在现有的Pod中存在有限时间的容器。它对故障排除特别有用,特别是当需要检查另一个容器,但因为该容器已经崩溃或其镜像缺乏调试工具不能使用kubectl exec时。 对cgroups v2的支持进入稳定阶段 Kubernetes支持cgroups v2,与cgroups v1相比提供了一些改进,详情请参见cgroups v2。 SeccompDefault提升到Beta状态 如果要开启该特性,需要给kubelet增加启动参数为--seccomp-default=true,这样会默认开启seccomp为RuntimeDefault,提升整个系统的安全。1.25集群将不再支持使用注解“seccomp.security.alpha.kubernetes.io/pod”和“container.seccomp.security.alpha.kubernetes.io/annotation”来使用seccomp,请使用pod或container中“securityContext.seccompProfile”字段替代,详情请参见为Pod或容器配置安全上下文。 特性开启后可能应用所需的系统调用会被runtime限制,所以开启后应确保在测试环境调试,不会对应用造成影响。 网络策略中的EndPort进入稳定阶段 Network Policy中的EndPort已进入稳定状态,该特性于1.21版本合入。主要是在NetworkPolicy新增EndPort,可以指定一个Port范围,避免声明每一个Port。 本地临时容器存储容量隔离进入稳定阶段 本地临时存储容量隔离功能提供了对Pod之间本地临时存储容量隔离的支持,如EmptyDir。因此,如果一个Pod对本地临时存储容量的消耗超过该限制,就可以通过驱逐Pod来硬性限制其对共享资源的消耗。 CRD验证表达式语言升级为Beta阶段 CRD验证表达式语言已升级为 beta 版本, 这使得声明如何使用通用表达式语言(CEL)验证自定义资源成为可能。 请参考验证规则指导。 引入KMS v2 API 在Kubernetes 1.25版本,引入KMS v2 alpha1 API以提升性能,实现轮替与可观察性改进。 此API使用AES-GCM替代了AES-CBC,通过DEK实现静态 数据加密 (Kubernetes Secrets),此过程中无需您额外操作,且支持通过AES-GCM和AES-CBC进行读取。 更多信息,请参考使用 KMS provider进行数据加密指南。 Pod新增网络就绪状况 Kubernetes 1.25引入了对kubelet所管理的新的Pod状况PodHasNetwork的Alpha支持, 该状况位于Pod的status字段中 。详情请参见Pod网络就绪。 应用滚动上线所用的两个特性进入稳定阶段 在Kubernetes 1.25版本,StatefulSet的minReadySeconds进入稳定阶段,允许每个Pod等待一段预期时间来减缓StatefulSet的滚动上线。更多信息,请参见最短就绪秒数。 在Kubernetes 1.25版本,DaemonSet的maxSurge进入稳定阶段,允许DaemonSet工作负载在滚动上线期间在一个节点上运行同一 Pod的多个实例,有助于将DaemonSet的停机时间降到最低。DaemonSet不允许maxSurge和hostPort同时使用,因为两个活跃的Pod无法共享同一节点的相同端口。更多信息,请参见DaemonSet工作负载滚动上线。 对使用用户命名空间运行Pod提供Alpha支持 对使用user namespace运行Pod提供alpha支持,将Pod内的root用户映射到容器外的非零ID,使得从容器角度看是root身份运行,而从主机角度看是常规的非特权用户。目前尚处于内测阶段,需要开启特性门控UserNamespacesStatelessPodsSupport, 且要求容器运行时必须能够支持此功能。更多信息,请参见对使用user namespace运行Pod提供alpha支持。 Kubernetes 1.24版本 从kubelet中删除 Dockershim Dockershim自1.20版本被标废弃以来,在1.24版本正式从Kubelet代码中移除。如果还想使用Docker作为容器运行时的话,需要切换到cri-dockerd,或者使用其他支持CRI的运行时比如Containerd/CRI-O等。 从Docker Engine 切换到Containerd的流程请参见将节点容器引擎从Docker迁移到Containerd。 您需要注意排查是否有agent或者应用强依赖Docker Engine的,比如在代码中使用docker ps,docker run, docker inspect等,需要注意兼容多种runtime,以及切换到标准cri接口。 Beta APIs默认关闭 在社区移除一些长期Beta API的过程中发现,90%的集群管理员并没有关心Beta API默认开始,其实Beta特性是不推荐在生产环境中使用,但是因为默认的打开策略,导致这些API在生产环境中都被默认开启,这样会因为Beta特性的bug带来一些风险,以及升级的迁移的风险。所以在1.24版本开始,Beta API默认关闭,之前已经默认开启的Beta API会保持默认开启。 支持OpenAPI v3 在Kubernetes 1.24版本后,OpenAPI V3默认开启。 存储容量跟踪特性进入稳定阶段 在Kubernetes 1.24版本后,CSIStorageCapacity API支持显示当前可用的存储大小,确保Pod调度到足够存储容量的节点上,减少Volumes创建和挂载失败导致的Pod调度延迟,详细信息请参见存储容量。 gRPC 探针升级到Beta阶段 在Kubernetes 1.24版本后,gRPC探针进入Beta,默认可用特性门控参数GRPCContainerProbe,使用方式请参见配置探针。 特性门控LegacyServiceAccountTokenNoAutoGeneration默认启用 LegacyServiceAccountTokenNoAutoGeneration特性门控进入beta状态,默认为开启状态,开启后将不再为Service Account自动生成Secret Token。如果需要使用永不过期的Token,需要自己新建Secrets并挂载,详情请参见服务账号令牌Secret。 避免 IP 分配给服务的冲突 Kubernetes 1.24引入了一项新功能,允许为服务的静态IP地址分配软保留范围。 通过手动启用此功能,集群将从服务IP地址池中自动分配IP,从而降低冲突风险。 基于Go 1.18编译 在Kubernetes 1.24版本后,Kubernetes基于Go 1.18编译,默认不再支持SHA-1哈希算法验证证书签名,例如SHA1WithRSA、ECDSAWithSHA1算法,推荐使用SHA256算法生成的证书进行认证。 StatefulSet支持设置最大不可用副本数 在Kubernetes 1.24版本后,StatefulSets支持可配置maxUnavailable参数,使得滚动更新时可以更快地停止Pods。 节点非体面关闭进入Alpha阶段 在Kubernetes 1.24中,节点非体面关闭特性是Alpha版。当kubelet的节点关闭管理器可以检测到即将到来的节点关闭操作时,节点关闭才被认为是体面的。详情请参见处理节点非体面关闭。
  • Prometheus插件版本发布记录(停止维护) 表1 Prometheus插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 2.23.32 v1.17 v1.19 v1.21 - 2.10.0 2.23.31 v1.15 适配CCE v1.15集群 2.10.0 2.23.30 v1.17 v1.19 v1.21 适配CCE v1.21集群 2.10.0 2.21.14 v1.17 v1.19 v1.21 适配CCE v1.21集群 2.10.0 2.21.12 v1.15 适配CCE v1.15集群 2.10.0 2.21.11 v1.17 v1.19 适配CCE v1.19集群 2.10.0 1.15.1 v1.15 v1.17 Prometheus是一个监控系统和时间序列库 2.10.0 父主题: 插件版本发布记录
  • 云原生日志采集插件版本发布记录 表1 云原生日志采集插件版本记录 插件版本 支持的集群版本 更新特性 1.5.2 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 新增创建容器日志默认日志流时索引功能 1.5.1 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 支持v1.29集群 支持日志从各节点直接上报LTS 1.4.5 v1.21 v1.23 v1.25 v1.27 v1.28 修复部分问题 1.4.2 v1.21 v1.23 v1.25 v1.27 v1.28 支持v1.28集群 支持本地集群日志采集 支持GPU事件上报 AOM 字段特殊处理 1.3.6 v1.17 v1.19 v1.21 v1.23 v1.25 v1.27 - 1.3.4 v1.17 v1.19 v1.21 v1.23 v1.25 v1.27 支持v1.27集群 默认不再上报标准输出和Kubernetes事件到 云日志 服务(LTS) 1.3.2 v1.17 v1.19 v1.21 v1.23 v1.25 支持Kubernetes事件上报至AOM 1.3.0 v1.17 v1.19 v1.21 v1.23 v1.25 支持v1.25集群 1.2.3 v1.17 v1.19 v1.21 v1.23 - 1.2.2 v1.17 v1.19 v1.21 v1.23 log-agent是基于开源fluent-bit和opentelemetry构建的云原生日志采集插件。log-agent支持基于CRD的日志采集策略,可以根据您配置的策略规则,对集群中的容器标准输出日志、容器文件日志、节点日志及K8s事件日志进行采集与转发。 父主题: 插件版本发布记录
  • 云原生监控插件版本发布记录 表1 云原生监控插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 3.10.1 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 NodeExporter组件升级至1.8.0版本 2.37.8 3.10.0 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 支持v1.29集群 2.37.8 3.9.5 v1.21 v1.23 v1.25 v1.27 v1.28 新增采集自定义指标的开关,默认开启 移除对1.17和1.19版本集群的支持 Grafana从云原生监控插件中移除,拆分为独立的Grafana插件 默认只采集免费指标和服务发现自定义指标 升级开源组件版本 2.37.8 3.8.2 v1.17 v1.19 v1.21 v1.23 v1.25 v1.27 修复部分问题 2.35.0 3.8.1 v1.17 v1.19 v1.21 v1.23 v1.25 v1.27 支持v1.27集群 优化Agent模式的资源占用并支持分片 2.35.0 3.7.3 v1.17 v1.19 v1.21 v1.23 v1.25 - 2.35.0 3.7.2 v1.17 v1.19 v1.21 v1.23 v1.25 支持采集Virtual-Kubelet Pod指标 2.35.0 3.7.1 v1.17 v1.19 v1.21 v1.23 v1.25 支持PrometheusAgent模式 2.35.0 3.6.6 v1.17 v1.19 v1.21 v1.23 v1.25 Grafana版本升级至7.5.17 支持containerd节点 2.35.0 3.5.1 v1.17 v1.19 v1.21 v1.23 - 2.35.0 3.5.0 v1.17 v1.19 v1.21 v1.23 更新至社区2.35.0版本 2.35.0 父主题: 插件版本发布记录
  • 节点本地域名解析加速插件版本发布记录 表1 节点本地域名解析加速插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 1.6.8 v1.23 v1.25 v1.27 v1.28 v1.29 优化自定义注入配置体验 1.22.20 1.6.7 v1.23 v1.25 v1.27 v1.28 v1.29 新增自定义注入配置 1.22.20 1.6.2 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 适配CCE v1.29集群 1.22.20 1.5.2 v1.21 v1.23 v1.25 v1.27 v1.28 修复部分问题 1.22.20 1.5.1 v1.21 v1.23 v1.25 v1.27 v1.28 修复部分问题 1.22.20 1.5.0 v1.21 v1.23 v1.25 v1.27 v1.28 适配CCE v1.28集群 插件多可用区部署模式支持选择均匀分布 插件容器基础镜像切HCE20 1.22.20 1.4.6 v1.19 v1.21 v1.23 v1.25 v1.27 修复golang bug导致的admission-controller实例出现高CPU问题 修复插件升级admission-controller实例不会自动重启问题 1.22.20 1.4.0 v1.19 v1.21 v1.23 v1.25 v1.27 修复插件在CCI场景下pod请求耗时长问题 1.22.20 1.3.7 v1.19 v1.21 v1.23 v1.25 v1.27 - 1.22.20 1.3.5 v1.19 v1.21 v1.23 v1.25 v1.27 适配CCE v1.27集群 1.22.20 1.3.1 v1.19 v1.21 v1.23 v1.25 支持为命名空间自动开启DNS Config自动注入 插件与节点时区一致 1.22.20 1.2.7 v1.19 v1.21 v1.23 v1.25 支持插件实例AZ反亲和配置 1.21.1 1.2.4 v1.19 v1.21 v1.23 v1.25 适配CCE v1.25集群 1.21.1 1.2.2 v1.19 v1.21 v1.23 支持自定义NodeLocal DNSCache规格 1.21.1 父主题: 插件版本发布记录
  • CCE容器网络扩展指标插件版本发布记录 表1 CCE容器网络扩展指标插件版本记录 插件版本 支持的集群版本 更新特性 1.4.7 v1.23 v1.25 v1.27 v1.28 v1.29 修复部分问题 1.4.5 v1.23 v1.25 v1.27 v1.28 v1.29 支持普通容器Pod粒度的UDP、TCP drop、TCP connect fail监控 支持普通容器flow粒度的UDP、TCP drop监控 支持HCE 2.0 x86和HCE 2.0 ARM 支持CCE v1.29集群 1.3.10 v1.23 v1.25 v1.27 v1.28 修复部分问题 1.3.8 v1.23 v1.25 v1.27 v1.28 支持普通容器pod粒度的IP和TCP监控 支持普通容器flow粒度的IP和TCP监控 支持CCE v1.27集群 支持CCE v1.28集群 1.2.27 v1.19 v1.21 v1.23 v1.25 - 1.2.7 v1.19 v1.21 v1.23 v1.25 - 1.2.5 v1.19 v1.21 v1.23 v1.25 - 1.2.4 v1.19 v1.21 v1.23 v1.25 增加不支持EulerOS以外操作系统描述 1.2.2 v1.19 v1.21 v1.23 v1.25 本地Pod VPC网络健康检查 1.1.8 v1.19 v1.21 v1.23 v1.25 适配CCE v1.25集群 1.1.6 v1.19 v1.21 v1.23 - 1.1.5 v1.19 v1.21 v1.23 liveness健康检查优化 1.1.2 v1.19 v1.21 v1.23 支持操作系统类型宽匹配 1.0.1 v1.19 v1.21 支持流量统计数据持久化和本地socket通信. 父主题: 插件版本发布记录
  • CCE密钥管理(对接 DEW)插件版本发布记录 表1 CCE密钥管理(对接 DEW)插件版本记录 插件版本 支持的集群版本 更新特性 1.1.3 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 修复部分问题 1.1.2 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 适配CCE v1.29集群 支持同步csms凭据时创建secret 1.0.31 v1.21 v1.23 v1.25 v1.27 v1.28 适配CCE v1.27集群 适配CCE v1.28集群 1.0.9 v1.19 v1.21 v1.23 v1.25 - 1.0.6 v1.19 v1.21 v1.23 v1.25 - 1.0.3 v1.19 v1.21 v1.23 v1.25 适配CCE v1.25集群 1.0.2 v1.19 v1.21 v1.23 适配CCE v1.23集群 1.0.1 v1.19 v1.21 支持主动感知SecretProviderClass对象的变化 父主题: 插件版本发布记录
  • Volcano调度器版本发布记录 表1 Volcano调度器版本记录 插件版本 支持的集群版本 更新特性 1.13.7 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 网卡资源调度支持前置预热 支持自定义资源超卖比例 1.13.3 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 支持自定义资源按照节点优先级缩容 优化抢占与节点扩容联动能力 1.13.1 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 调度器内存使用优化 1.12.18 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 适配CCE v1.29集群 默认开启抢占功能 1.12.1 v1.19.16 v1.21 v1.23 v1.25 v1.27 v1.28 应用弹性扩缩容性能优化 1.11.21 v1.19.16 v1.21 v1.23 v1.25 v1.27 v1.28 支持Kubernetes v1.28 支持负载感知调度 镜像OS更新为HCE 2.0 优化CSI资源抢占能力 优化负载感知重调度能力 优化混部场景抢占能力 1.11.9 v1.19.16 v1.21 v1.23 v1.25 v1.27 优化昇腾芯片rank table排序能力 支持应用弹性伸缩场景下的优先级调度 1.11.6 v1.19.16 v1.21 v1.23 v1.25 v1.27 支持Kubernetes v1.27 支持重调度功能 支持节点池亲和调度能力 优化调度性能 1.10.14 v1.19.16 v1.21 v1.23 v1.25 支持GPU资源抢占 优化混部弹性限流功能 增强可用区拓扑分布能力 优化昇腾芯片rank table排序能力 优化GPU虚拟化功能 提升与CA联动扩容效率 提升调度稳定性 优化持久卷调度逻辑 优化日志信息 1.10.7 v1.19.16 v1.21 v1.23 v1.25 修复本地持久卷插件未计算预绑定到节点的pod的问题 1.10.5 v1.19.16 v1.21 v1.23 v1.25 volcano agent支持资源超卖。 添加针对GPU资源字段的校验admission:nvidia.com/gpu应小于1或者为正整数,volcano.sh/gpu-core.percentage应小于100并为5的倍数。 修复存在PVC绑定失败的场景下,后续提交Pod调度慢的问题。 修复节点上存在长时间Teminating Pod场景下,新提交Pod无法运行的问题。 修复并发创建挂载PVC的Pod的场景下,volcano重启的问题。 1.9.1 v1.19.16 v1.21 v1.23 v1.25 修复networkresource插件计数pipeline pod占用subeni问题 修复binpack插件对资源不足节点打分问题 修复对结束状态未知的Pod的资源的处理 优化事件输出 默认高可用部署 1.7.2 v1.19.16 v1.21 v1.23 v1.25 Volcano支持v1.25集群 提升Volcano调度性能 1.7.1 v1.19.16 v1.21 v1.23 v1.25 Volcano支持v1.25集群 1.4.7 v1.15 v1.17 v1.19 v1.21 删除Pod状态Undetermined,以适配集群Autoscaler的弹性能力。 1.4.5 v1.17 v1.19 v1.21 volcano-scheduler的部署方式由StatefulSet调整为Deployment,修复节点异常时Pod无法自动迁移的问题 1.4.2 v1.15 v1.17 v1.19 v1.21 修复跨GPU分配失败问题 适配更新后的EAS API 1.3.7 v1.15 v1.17 v1.19 v1.21 支持在/离线作业混合部署及资源超卖功能 优化集群调度吞吐性能 修复特定场景下调度器panic的问题 修复CCE v1.15集群中volcano作业volumes.secret校验失败的问题 修复挂载volume,作业调度不成功的问题 1.3.3 v1.15 v1.17 v1.19 v1.21 修复GPU异常导致的调度器崩溃问题;修复特权Init容器准入失败问题 1.3.1 v1.15 v1.17 v1.19 升级Volcano框架到最新版本 支持Kubernetes v1.19版本 添加numa-aware插件 修复多队列场景下Deployment扩缩容的问题 调整默认开启的算法插件 1.2.5 v1.15 v1.17 v1.19 修复某些场景下OutOfcpu的问题 修复queue设置部分capability情况下Pod无法调度问题 支持volcano组件日志时间与系统时间保持一致 修复队列间多抢占问题 修复ioaware插件在某些极端场景下结果不符合预期的问题 支持混合集群 1.2.3 v1.15 v1.17 v1.19 修复因为精度不够引发的训练任务OOM的问题 修复CCE v1.15以上版本GPU调度的问题,暂不支持任务分发时的CCE版本滚动升级 修复特定场景下队列状态不明的问题 修复特定场景下作业挂载PVC panic的问题 修复GPU作业无法配置小数的问题 添加ioaware插件 添加ring controller 父主题: 插件版本发布记录
共100000条