检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
合理分配容器计算资源 只要节点有足够的内存资源,那容器就可以使用超过其申请的内存,但是不允许容器使用超过其限制的资源。如果容器分配了超过限制的内存,这个容器将会被优先结束。如果容器持续使用超过限制的内存,这个容器就会被终结。
查看CRD对应的资源对象 在列表中选择一个自定义资源类型,单击操作列中的“查看资源”按钮即可浏览对应的资源对象。 父主题: 工作负载
节点预留资源策略说明 节点的部分资源需要运行一些必要的Kubernetes系统组件和Kubernetes系统资源,使该节点可作为您的集群的一部分。 因此,您的节点资源总量与节点在Kubernetes中的可分配资源之间会存在差异。
客户端需重新获取服务端数据,重新修改后再次提交到服务器端;而资源配额对每个命名空间的资源消耗总量提供限制,并且会记录集群中的资源信息,因此开启资源配额后,在大规模并发场景下创建资源冲突概率会变高,会影响批创资源性能。 父主题: 命名空间
资源准备 在集群中添加GPU节点 登录CCE控制台,单击已创建的集群,进入集群控制台。 安装GPU插件。 在左侧导航栏中选择“插件管理”,在右侧找到gpu-beta(或gpu-device-plugin),单击“安装”。 在安装插件页面,设置插件关键参数。
自定义资源 自定义资源配置
图1 资源超卖示意图 资源超卖功能特性 当节点池启用动态资源超卖和弹性伸缩时,由于高优先级应用业务资源使用量实时变化,导致超卖资源变化较快,为了避免节点频繁缩容和扩容,在节点缩容评估时暂不考虑超卖资源。
自定义资源名称属性 参数名 取值范围 默认值 是否允许修改 作用范围 spec.names 无 无 允许 CCE Standard/CCE Turbo 自定义资源名称属性,此字段包含了自定义资源的复数形式、单数形式、别名等 自定义资源名称的复数形式 自定义资源名称的复数形式 参数名
资源规划 本示例中需要创建虚拟私有云VPC、弹性云服务器ECS、CCE集群以及VPC对等连接,资源规划总体说明如表1所示。 以下资源规划详情仅为示例,供您参考,您需要根据实际业务情况规划资源。
目标集群资源规划 CCE支持对集群资源进行自定义选择,以满足您的多种业务需求。表1中列举了集群的主要性能参数,并给出了本示例的规划值,您可根据业务的实际需求大小进行设置,建议与原集群性能配置保持相对一致。 集群创建成功后,表1中带“*”号的资源参数将不可更改,请谨慎选择。
资源与成本规划 本文提供的成本预估费用仅供参考,资源的实际费用与用户所在区域相关,请以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 弹性云服务器ECS 建议选择按需计费。
虚拟化资源:算力 参数名 取值范围 默认值 是否允许修改 作用范围 volcano.sh/gpu-core.percentage 1-100且为5的倍数 无 允许 - 虚拟化GPU算力资源,若配置limit和request相同,必须同时配置虚拟化GPU显存资源 NPU数量(D310
资源和成本规划 本文提供的成本预估费用仅供参考,资源的实际费用与用户所在区域相关,请以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 云容器引擎CCE 建议选择按需计费。
集群外资源迁移 若您的集群不涉及表1中的集群外资源,或迁移后无需使用其他云服务进行资源替换,可忽略本章节内容。 容器镜像迁移 为保证集群迁移后容器镜像可正常拉取,提升容器部署效率,十分建议您将私有镜像迁移至容器镜像服务SWR。
如有远程登录集群节点的需求,推荐使用华为云堡垒机服务作为中转连接集群节点。 父主题: 安全加固
kubectl edit svc wordpress LoadBanlancer资源进行更新时,需要重新对接ELB。
监控GPU资源指标 通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。
提高集群资源利用率 集群中存在大作业(request资源量较大)和小作业(request资源量较少)混合提交并运行,希望小作业可以优先填满集群各节点的资源碎片,将空闲的节点资源优先预留给大作业运行,避免大作业由于节点资源不足长时间无法调度。
异构资源配置 GPU配置 GPU虚拟化:CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。
不同的Namespace下的资源名称可以相同,Kubernetes中大部分资源可以用Namespace划分,不过有些资源不行,例如Node、PV等,它们属于全局资源,不属于某一个Namespace,后面会逐步接触到。 通过如下命令可以查询到当前集群下的Namespace。