检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
监控GPU资源指标 通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。 本文将通过一个示例应用演示如何监控GPU资源指标,具体步骤如下: 访问Prometheus (可选)为Prom
资源与成本规划 本文提供的成本预估费用仅供参考,资源的实际费用与用户所在区域相关,请以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 弹性云服务器ECS 建议选择按需计费。 虚拟机类型:通用计算增强型 节点规格:4核
目标集群资源规划 CCE支持对集群资源进行自定义选择,以满足您的多种业务需求。表1中列举了集群的主要性能参数,并给出了本示例的规划值,您可根据业务的实际需求大小进行设置,建议与原集群性能配置保持相对一致。 集群创建成功后,表1中带“*”号的资源参数将不可更改,请谨慎选择。 表1 CCE集群规划
通过NAT网关的SNAT功能,即使VPC内的容器实例不配置弹性公网IP也可以直接访问Internet,提供超大并发数的连接服务,适用于请求量大、连接数多的服务。 图1 SNAT 您可以通过如下步骤实现容器实例访问Internet。 创建弹性公网IP,具体请参见申请弹性公网IP。 登录管理控制台。
ELB监听器访问控制配置项检查异常处理 检查项内容 检查当前集群Service是否通过annotation配置了ELB监听器的访问控制。 若有配置访问控制则检查相关配置项是否正确。 解决方案 如果配置项存在错误,请参考为负载均衡类型的Service配置黑名单/白名单访问策略进行重新配置。
资源和成本规划 本文提供的成本预估费用仅供参考,资源的实际费用与用户所在区域相关,请以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 云容器引擎CCE 建议选择按需计费。 集群类型:CCE集群 集群版本:v1.25 集群规模:50节点
Kubernetes kubelet资源管理错误漏洞公告(CVE-2020-8557) 漏洞详情 kubelet的驱逐管理器(eviction manager)中没有包含对Pod中挂载的/etc/hosts文件的临时存储占用量管理,因此在特定的攻击场景下,一个挂载了/etc/ho
资源配额控制器(resource-quota-controller)配置 启用资源配额管理 是否启用资源配额管理功能 参数名 取值范围 默认值 是否允许修改 作用范围 enable-resource-quota true/false false 允许 1.21版本以上的CCE Standard/CCE
NS能够自动发现集群内的服务,并为这些服务提供域名解析。同时,通过级联云上DNS服务器,还能够为集群内的工作负载提供外部域名的解析服务。 该插件为系统资源插件,在创建集群时默认安装。 目前CoreDNS已经成为社区Kubernetes集群推荐的DNS服务器解决方案。 CoreDNS官网:https://coredns
异构资源配置 GPU配置 GPU虚拟化:CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU
管理自定义资源 自定义资源定义(Custom Resource Definition,CRD) 是对Kubernetes API的扩展,当默认的Kubernetes资源无法满足业务需求时,您可以通过CRD对象来定义新的资源类别。 根据CRD的定义,您可以在集群中创建自定义资源(Custom
登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“服务”,在右上角单击“创建服务”。 设置集群内访问参数。 Service名称:自定义服务名称,可与工作负载名称保持一致。 访问类型:选择“节点访问”。 命名空间:工作负载所在命名空间。 服务亲和:详情请参见服务亲和(externalTrafficPolicy)。
Kubernetes原生GPU资源配额,配置时limit和request配置相同 GPU虚拟化资源:显存 参数名 取值范围 默认值 是否允许修改 作用范围 volcano.sh/gpu-mem.128Mi 1-16384间整数 无 允许 - 虚拟化GPU显存资源,若配置limit和request相同,可独立配置
I(即Container Storage Interface)为Kubernetes v1.15.6及以上版本集群对接云存储服务的能力。 该插件为系统资源插件,Kubernetes 1.15及以上版本的集群在创建时默认安装。 约束与限制 插件版本为1.2.0的CCE容器存储插件(
如何确认已创建的集群是否为多控制节点模式? 登录CCE控制台,进入集群,在集群详情页面右侧查看控制节点数量: 3个节点即为多控制节点模式。 1个节点即为单控制节点模式。 集群一旦创建,便无法更改控制节点数,需要重新创建集群才能调整。 父主题: 集群运行
例选择“所有资源”,单击“确定”。 表3 授权范围方案 方案 说明 所有资源 授权后,IAM用户可以根据权限使用账号中所有资源,包括企业项目、区域项目和全局服务资源。 指定企业项目资源 授权后,IAM用户根据权限使用所选企业项目中的资源。如企业项目A包含资源B,资源B部署在北京四
是否可以直接连接CCE集群的控制节点? CCE支持使用Kubectl工具连接集群,具体请参见通过Kubectl连接集群。 CCE不支持登录控制节点执行相关操作。 父主题: 集群运行
节点池亲和性调度 如何减少节点资源碎片,提高集群资源利用率 集群中存在大作业(request资源量较大)和小作业(request资源量较少)混合提交并运行,希望小作业可以优先填满集群各节点的资源碎片,将空闲的节点资源优先预留给大作业运行,避免大作业由于节点资源不足长时间无法调度。 开启
资源利用率优化调度 装箱调度(Binpack) 重调度(Descheduler) 节点池亲和性调度 负载感知调度 资源利用率优化调度配置案例 父主题: Volcano调度
创建ClusterIP类型Service 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“服务”,在右上角单击“创建服务”。 设置集群内访问参数。 Service名称:自定义服务名称,可与工作负载名称保持一致。 访问类型:选择“集群内访问”。 命名空间:工作负载所在命名空间。