检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Kubeflow和Volcano实现典型AI训练任务 Kubernetes已经成为云原生应用编排、管理的事实标准, 越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用
使用GPU虚拟化 本文介绍如何使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 单个GPU卡最多虚拟化成20个GPU虚拟设备。
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一
创建VPA策略 VPA策略即Vertical Pod Autoscaling,该功能可以在Kubernetes中实现Pod垂直弹性伸缩,可以根据容器资源历史使用情况自动调整Pod的CPU、Memory资源申请量。当业务负载急剧飙升时,VPA能够快速地在设定范围内扩大容器的资源申请
通过StorageClass动态创建SFS Turbo子目录 背景信息 SFS Turbo容量最小500G,且不是按使用量计费。SFS Turbo挂载时默认将根目录挂载到容器,而通常情况下负载不需要这么大容量,造成浪费。 everest插件支持一种在SFS Turbo下动态创建子目录的方法,能够在SFS
通过StorageClass动态创建SFS Turbo子目录 背景信息 SFS Turbo容量最小500G,且不是按使用量计费。SFS Turbo挂载时默认将根目录挂载到容器,而通常情况下负载不需要这么大容量,造成浪费。 everest插件支持一种在SFS Turbo下动态创建子目录的方法,能够在SFS
吊销用户的集群证书 功能介绍 该API用于吊销指定集群的用户证书 吊销操作完成后,此证书申请人之前下载的证书和 kubectl 配置文件无法再用于连接集群。此证书申请人可以重新下载证书或 kubectl 配置文件,并使用新下载的文件连接集群 接口约束 吊销用户集群证书首先需要获取用户ID,如何获取
兼容性风险检查异常处理 检查项内容 请您阅读版本兼容性差异,并确认不受影响。补丁升级不涉及版本兼容性差异。 版本兼容性差异 版本升级路径 版本差异 建议自检措施 v1.23/v1.25 升级至v1.27 容器运行时Docker不再被推荐使用,建议您使用Containerd进行替换,详情请参见容器引擎说明。
设置对象存储挂载参数 本章节主要介绍如何设置对象存储的挂载参数。您可以在PV中设置挂载参数,然后通过PVC绑定PV,也可以在StorageClass中设置挂载参数,然后使用StorageClass创建PVC,动态创建出的PV会默认带有StorageClass中设置的挂载参数。 前提条件
存储基础知识 Volume(卷) 容器中的文件在磁盘上是临时存放的,这给容器中运行的较重要的应用程序带来如下两个问题: 当容器重建时,容器中的文件将会丢失。 当在一个Pod中同时运行多个容器时,容器间需要共享文件。 Kubernetes抽象出了Volume(卷)来解决以上两个问题
使用密钥 密钥创建后,可在工作负载环境变量和数据卷两个场景使用。 请勿对以下CCE系统使用的密钥做任何操作,详情请参见集群系统密钥说明。 请不要操作kube-system下的secrets。 请不要操作任何命名空间下的default-secret、paas.elb。其中,defa
通过静态存储卷使用已有对象存储 本文介绍如何使用已有的对象存储静态创建PV和PVC,并在工作负载中实现数据持久化与共享性。 前提条件 您已经创建好一个集群,并且在该集群中安装CCE容器存储(Everest)。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。
API概览 云容器引擎所提供的接口分为CCE接口与Kubernetes原生接口。通过配合使用CCE接口和Kubernetes原生接口,您可以完整的使用云容器引擎的所有功能,包括创建集群和节点,使用Kubernetes接口创建容器工作负载,使用CCE接口监控工作负载的使用数据等。 类型
Prometheus插件平滑迁移实践 由于Prometheus(停止维护)仅支持v1.21及之前的集群版本,若您需要将集群升级至v1.21以上,您需要将停止维护的Prometheus插件迁移至云原生监控插件,以获取后续的技术支持。本文将指导您将已经停止维护的Prometheus插件迁移至云原生监控插件。
CCE容器网络扩展指标 插件简介 CCE容器网络扩展指标插件是一款CCE Turbo集群容器网络可观测性增强插件,能提供CCE Turbo集群容器网络相关的各项监控数据,帮助您观测各种容器网络流量以及快速发现和定位容器网络问题。插件实例仅支持部署在X86/ARM架构的HCE 2.
调度算法 在离线业务混部 在离线业务混部是将多种应用在一个集群内部署,通过预测分析应用特性,实现业务对集群资源的充分利用; 参数名 取值范围 默认值 是否允许修改 作用范围 colocation-enable true/false false 允许 CCE Turbo 从集群维度
创建CronHPA定时策略 在一些复杂的业务场景下,可能有固定时间段高峰业务,又有日常突发高峰业务。此种情况下,用户既期望能定时弹性伸缩应对固定时间段高峰业务,又期望能根据指标弹性伸缩应对日常突发高峰业务。CCE提供CronHPA的自定义资源,实现在固定时间段对集群进行扩缩容,并
Kubernetes 1.29版本说明 云容器引擎(CCE)严格遵循社区一致性认证,现已支持创建Kubernetes 1.29集群。本文介绍Kubernetes 1.29版本的变更说明。 索引 新增特性及特性增强 API变更与弃用 CCE对Kubernetes 1.29版本的增强
通过动态存储卷使用对象存储 本文介绍如何自动创建对象存储,适用于无可用的底层存储卷,需要新创建的场景。 约束与限制 使用对象存储时,挂载点不支持修改属组和权限。 使用PVC挂载对象存储时,负载每挂载一个对象存储卷,后端会产生一个常驻进程。当负载使用对象存储数过多或大量读写对象存储
使用HPA+CA实现工作负载和节点联动弹性伸缩 应用场景 企业应用的流量大小不是每时每刻都一样,有高峰,有低谷,如果每时每刻都要保持能够扛住高峰流量的机器数目,那么成本会很高。通常解决这个问题的办法就是根据流量大小或资源占用率自动调节机器的数量,也就是弹性伸缩。 当使用Pod/容