检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用dcgm-exporter监控GPU指标 应用场景 集群中包含GPU节点时,需要了解GPU应用使用节点GPU资源的情况,例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,或者根据GPU指标设置告
Volcano调度器 插件简介 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管
管理节点污点 污点(Taint)能够使节点排斥某些特定的Pod,从而避免Pod调度到该节点上。 通过控制台管理节点污点 在CCE控制台上同样可以管理节点的污点,且可以批量操作。 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签
自定义部署Nginx Ingress Controller 应用现状 Nginx Ingress Controller是一款业界流行的开源Ingress控制器,有着广泛的应用。在大规模集群场景下,用户有在集群中部署多套Nginx Ingress Controller的诉求,不同流
NUMA亲和性调度 NUMA节点是Non-Uniform Memory Access(非统一内存访问)架构中的一个基本组成单元,每个节点包含自己的处理器和本地内存,这些节点在物理上彼此独立,但通过高速互连总线连接在一起,形成一个整体系统。NUMA节点能够通过提供更快的本地内存访问
Kubernetes 1.27版本说明 云容器引擎(CCE)严格遵循社区一致性认证,现已支持创建Kubernetes 1.27集群。本文介绍Kubernetes 1.27版本相对于1.25版本所做的变更说明。 索引 主要特性 弃用和移除 CCE对Kubernetes 1.27版本的增强
Kubernetes 1.27版本说明 云容器引擎(CCE)严格遵循社区一致性认证,现已支持创建Kubernetes 1.27集群。本文介绍Kubernetes 1.27版本相对于1.25版本所做的变更说明。 索引 主要特性 弃用和移除 CCE对Kubernetes 1.27版本的增强
Kubernetes 1.29版本说明 云容器引擎(CCE)严格遵循社区一致性认证,现已支持创建Kubernetes 1.29集群。本文介绍Kubernetes 1.29版本的变更说明。 索引 新增特性及特性增强 API变更与弃用 CCE对Kubernetes 1.29版本的增强
使用Service实现简单的灰度发布和蓝绿发布 CCE实现灰度发布通常需要向集群额外部署其他开源工具,例如Nginx Ingress,或将业务部署至服务网格,利用服务网格的能力实现。这些方案均有一些难度,如果您的灰度发布需求比较简单,且不希望引入过多的插件或复杂的用法,则可以参考
重置节点 功能介绍 该API用于在指定集群下重置节点。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{project_id}/
Kubernetes 1.29版本说明 云容器引擎(CCE)严格遵循社区一致性认证,现已支持创建Kubernetes 1.29集群。本文介绍Kubernetes 1.29版本的变更说明。 索引 新增特性及特性增强 API变更与弃用 CCE对Kubernetes 1.29版本的增强
集群备份恢复 CCE备份恢复为无状态和有状态应用的备份和恢复提供了一套可靠、安全、灵活且高效的解决方案。通过遵循CCE备份恢复的全流程指导,您可以顺利地完成应用的备份和恢复。 建议在用户业务量小时执行备份和恢复操作。 方案优势 易用性:在应用备份和恢复阶段,已实现工具自动化。这些工具免安装,简单轻量且配置灵活。
升级前须知 升级前,您可以在CCE控制台确认您的集群是否可以进行升级操作。确认方法请参见升级集群的流程和方法。 注意事项 升级集群前,您需要知晓以下事项: 请务必慎重并选择合适的时间段进行升级,以减少升级对您的业务带来的影响。 集群升级前,请参考Kubernetes版本发布说明了
CCE事件列表 在集群运行过程中,CCE会上报一系列事件至AOM,您可以根据自身需求添加事件类告警,监控集群数据面和控制面组件的健康状态,及时发现和解决问题,保证集群的稳定性和可靠性。 集群数据面事件:集群运行过程中与用户操作相关的事件,包括工作负载、网络、节点、存储、弹性伸缩等事件。
应用扩缩容优先级策略 通过应用扩缩容优先级策略,您可以精细调整Pod在不同类型节点上的扩容和缩容顺序,实现资源管理的最优化。在使用默认扩缩容优先级策略的情况下,扩容过程中Pod优先被调度到包周期的节点,其次被调度到按需计费的节点,最后被调度到virtual-kubelet节点(弹
通过静态存储卷使用已有极速文件存储 极速文件存储(SFS Turbo)是一种具备高可用性和持久性的共享文件系统,适合海量的小文件、低延迟高IOPS的应用。本文介绍如何使用已有的极速文件存储静态创建PV和PVC,并在工作负载中实现数据持久化与共享性。 前提条件 您已经创建好一个集群
通过静态存储卷使用已有文件存储 文件存储(SFS)是一种可共享访问,并提供按需扩展的高性能文件系统(NAS),适用大容量扩展以及成本敏感型的业务场景。本文介绍如何使用已有的文件存储静态创建PV和PVC,并在工作负载中实现数据持久化与共享性。 前提条件 您已经创建好一个集群,并且在
CCE集群备份恢复(停止维护) 插件简介 CCE集群备份恢复插件(原名e-backup)提供集群备份恢复能力。它将用户应用数据和业务数据备份到OBS桶中,并提供数据的本地备份和远程备份的能力。 使用约束 备份/恢复过程中,用户要保证集群处于稳态,不要触发增删改等变更行为,以免出现备份/恢复失败或不完整;
工作负载异常:实例驱逐异常(Evicted) 驱逐原理 当节点出现异常时,为了保证工作负载的可用性,Kubernetes会通过驱逐机制(Eviction)将该节点上的Pod调离异常节点。 目前Kubernetes中存在两种Eviction机制,分别由kube-controller-manager和kubelet实现。
配置节点故障检测策略 节点故障检查功能依赖node-problem-detector(简称:npd),npd是一款集群节点监控插件,插件实例会运行在每个节点上。本文介绍如何开启节点故障检测能力。 前提条件 集群中已安装CCE节点故障检测插件。 开启节点故障检测 登录CCE控制台,单击集群名称进入集群。