检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
资源准备 在集群中添加GPU节点 登录CCE控制台,单击已创建的集群,进入集群控制台。 安装GPU插件。 在左侧导航栏中选择“插件管理”,在右侧找到gpu-beta(或gpu-device-plugin),单击“安装”。 在安装插件页面,设置插件关键参数。 Nvidia驱动:填写
将这些申请而未使用的资源(即申请量与使用量的差值)利用起来,就是资源超卖。超卖资源适合部署离线作业,离线作业通常关注吞吐量,SLA要求不高,容忍一定的失败。 在线作业和离线作业混合部署在Kubernetes集群中将有效的提升集群整体资源利用率。 图1 资源超卖示意图 资源超卖功能特性
节点预留资源策略说明 节点的部分资源需要运行一些必要的Kubernetes系统组件和Kubernetes系统资源,使该节点可作为您的集群的一部分。 因此,您的节点资源总量与节点在Kubernetes中的可分配资源之间会存在差异。节点的规格越大,在节点上部署的容器可能会越多,所以K
资源规划 本示例中需要创建虚拟私有云VPC、弹性云服务器ECS、CCE集群以及VPC对等连接,资源规划总体说明如表1所示。 以下资源规划详情仅为示例,供您参考,您需要根据实际业务情况规划资源。 表1 资源和成本规划 资源 资源说明 虚拟私有云VPC 本示例中共有3个VPC,包括E
ublic默认不支持设置资源配额。 设置资源配额,然后单击“确定”。 命名空间设置了CPU或内存资源配额后,创建工作负载时,必须指定CPU或内存的请求值(request)和约束值(limit),否则CCE将拒绝创建实例。若设置资源配额值为0,则不限制该资源的使用。 配额累计使用量
对象所创建的自定义资源可以是名字空间作用域的,也可以是集群作用域的 自定义资源名称属性 自定义资源名称属性 参数名 取值范围 默认值 是否允许修改 作用范围 spec.names 无 无 允许 CCE Standard/CCE Turbo 自定义资源名称属性,此字段包含了自定义资源的复数形式、单数形式、别名等
异构资源配置 GPU配置 GPU虚拟化 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU
分,这样多个团队可以共用一个集群,使用的资源用Namespace划分开。 不同的Namespace下的资源名称可以相同,Kubernetes中大部分资源可以用Namespace划分,不过有些资源不行,例如Node、PV等,它们属于全局资源,不属于某一个Namespace,后面会逐步接触到。
合理分配容器计算资源 只要节点有足够的内存资源,那容器就可以使用超过其申请的内存,但是不允许容器使用超过其限制的资源。如果容器分配了超过限制的内存,这个容器将会被优先结束。如果容器持续使用超过限制的内存,这个容器就会被终结。如果一个结束的容器允许重启,kubelet就会重启它,但是会出现其他类型的运行错误。
多个PV使用同一个文件存储时建议使用Retain,避免级联删除底层卷。 Retain:删除PVC,PV资源与底层存储资源均不会被删除,需要手动删除回收。PVC删除后PV资源状态为“已释放(Released)”,不能直接再次被PVC绑定使用。 Delete:表示删除PVC时,同时删除PV。
资源更新适配 镜像更新适配 由于本例使用的Wordpress和MySQL镜像均可从SWR正常拉取,因此不会出现镜像拉取失败(ErrImagePull)问题。如迁移应用为私有镜像,请执行以下步骤完成镜像更新适配。 将镜像资源迁移至容器镜像服务(SWR),具体步骤请参考客户端上传镜像。
资源和成本规划 本文提供的成本预估费用仅供参考,资源的实际费用以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 云容器引擎CCE 建议选择按需计费。 集群类型:CCE集群 集群版本:v1.25 集群规模:50节点 高可用:是
io/reclaim-policy:删除PVC,PV资源与云硬盘均被删除。 Delete且设置everest.io/reclaim-policy=retain-volume-only:删除PVC,PV资源被删除,云硬盘资源会保留。 Retain:删除PVC,PV资源与底层存储资源均不会被删除,需要手动删除
目标集群资源规划 CCE支持对集群资源进行自定义选择,以满足您的多种业务需求。表1中列举了集群的主要性能参数,并给出了本示例的规划值,您可根据业务的实际需求大小进行设置,建议与原集群性能配置保持相对一致。 集群创建成功后,表1中带“*”号的资源参数将不可更改,请谨慎选择。 表1 CCE集群规划
监控GPU资源指标 通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。 本文将通过一个示例应用演示如何监控GPU资源指标,具体步骤如下: 访问Prometheus (可选)为Prom
资源与成本规划 本文提供的成本预估费用仅供参考,资源的实际费用以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 弹性云服务器 ECS ECS虚拟机规格:4核8G或以上规格,Ubuntu 22.04操作系统。 绑定弹性IP规格:按带宽计费,5Mbit/s。
集群外资源迁移 若您的集群不涉及表1中的集群外资源,或迁移后无需使用其他云服务进行资源替换,可忽略本章节内容。 容器镜像迁移 为保证集群迁移后容器镜像可正常拉取,提升容器部署效率,十分建议您将私有镜像迁移至容器镜像服务SWR。CCE配合SWR为您提供容器自动化交付流水线,采用并行
10且everest插件版本>=1.2.9时正式开放回收策略支持。详情请参见PV回收策略。 Retain:删除PVC,PV资源与底层存储资源均不会被删除,需要手动删除回收。PVC删除后PV资源状态为“已释放(Released)”,不能直接再次被PVC绑定使用。 storage 是 PVC申请容量,单位为Gi。
自定义资源 自定义资源配置
io/reclaim-policy:删除PVC,PV资源与磁盘均被删除。 Delete且设置everest.io/reclaim-policy=retain-volume-only:删除PVC,PV资源被删除,磁盘资源会保留。 Retain:删除PVC,PV资源与底层存储资源均不会被删除,需要手动删除回