检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
建议请参见设置容器规格。 GPU配额(可选) 当集群中包含GPU节点时,才能设置GPU配额,且集群中需安装CCE AI套件(NVIDIA GPU)插件。 不使用:表示不使用GPU。 GPU 整卡:单个容器独享GPU。 GPU 虚拟化:容器需要使用的GPU百分比,例如设置为10%,表示该容器需使用GPU资源的10%。
集群调度器配置 开启GPU共享 是否开启GPU共享能力 参数名 取值范围 默认值 是否允许修改 作用范围 enable-gpu-share true/false true 允许 CCE Standard/CCE Turbo 配置建议: true 默认调度器 集群调度器选择开关,用户可自定义调度器模式。
修复高可用集群haproxy连接数限制问题 v1.9.2-r1 主要特性: Kubernetes同步社区1.9.2版本 集群节点支持CentOS 7.1操作系统 支持GPU节点,支持GPU资源限制 支持web-terminal插件 v1.7.3-r13 主要特性: 新建集群的Docker版本升级到1706 支持DNS级联
修复高可用集群haproxy连接数限制问题 v1.9.2-r1 主要特性: Kubernetes同步社区1.9.2版本 集群节点支持CentOS 7.1操作系统 支持GPU节点,支持GPU资源限制 支持web-terminal插件 v1.7.3-r13 主要特性: 新建集群的Docker版本升级到1706 支持DNS级联
例如工作负载挂载某个可用区的云硬盘时只能调度到相同可用区的节点上。 节点特殊资源:部分Pod可能请求特殊的资源类型,例如GPU等资源,调度器只能将其调度到GPU类型的节点上。 节点健康状态:节点的健康状况和状态可能影响调度决策,不健康的节点可能不会调度新的Pod。 为什么Pod实际负载在节点上分布不均匀
weight为CPU权重 Memory.score为Memory资源得分,Memory.weight为Memory权重 GPU.score为GPU资源得分,GPU.weight为GPU权重 图1 Binpack策略示例 如图所示,集群中存在两个节点,分别为Node 1和Node 2,在调度P
够通过提供更快的本地内存访问来提高系统性能,但通常一个Node节点是多个NUMA节点的集合,在多个NUMA节点之间进行内存访问时会产生延迟,开发者可以通过优化任务调度和内存分配策略,来提高内存访问效率和整体性能。 在云原生环境中,对于高性能计算(HPC)、实时应用和内存密集型工作
6-CCE Turbo集群容器网络走线介绍 CCE集群中容器出网总结 GPU&AI相关 基于Nvidia xid进行GPU故障定位 CCE中GPU虚拟化的使用 Kubernetes场景下基于Nvidia GPU-operator实现图形渲染能力 Java应用容器化相关 Java业
排查项二:检查CoreDNS实例是否已到达性能瓶颈 CoreDNS所能提供的域名解析QPS与CPU消耗成正相关,如遇QPS较高的场景,需要根据QPS的量级调整CoreDNS实例规格。集群超过100节点时,推荐使用NodeLocal DNSCache提升DNS性能,详情请参见使用NodeLocal
道网络把广播域控制到了节点级别,容器隧道网络最大可支持2000节点规模。 性能要求较高:由于没有额外的隧道封装,相比于容器隧道网络模式,VPC网络模型集群的容器网络性能接近于VPC网络性能,所以适用于对性能要求较高的业务场景,比如:AI计算、大数据计算等。 中小规模组网:由于VP
Service,DSS)可以为您提供独享的物理存储资源,通过数据冗余和缓存加速等多项技术,提供高可用性和持久性,以及稳定的低时延性能。CCE支持将使用DSS创建的存储卷挂载到容器。 专属存储性能规格 存储池性能的主要指标有IO读写延时、IOPS和吞吐量。 IOPS:每秒进行读写的操作次数。 吞吐量:每秒成功传送的数据量,即读取和写入的数据量。
机器学习系统的自动化敏捷构建,实现AI领域的DevOps。 前提条件 已在CCE创建一个集群clusterA,集群下有一个可用GPU节点,节点上的GPU卡数量大于等于2。 由于安装Kubeflow需要从github下载文件,从gcr.io等下载镜像,建议在华为云国际站创建集群,否则容易碰到较多网络问题。
节点本地域名解析加速(node-local-dns)是基于社区NodeLocal DNSCache提供的插件,通过在集群节点上作为守护程序集运行DNS缓存代理,提高集群DNS性能。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需指定。 flavor 是
显的。 虚拟GPU资源调度 支持GPU虚拟化资源调度。 参数名 取值范围 默认值 是否允许修改 作用范围 xGPU true/false true 允许 CCE Standard/CCE Turbo 支持GPU单卡算力、显存分割与隔离的调度能力 配置建议: 使用GPU的场景默认开启,不使用GPU资源可以选择关闭
建议请参见设置容器规格。 GPU配额(可选) 当集群中包含GPU节点时,才能设置GPU配额,且集群中需安装CCE AI套件(NVIDIA GPU)插件。 不使用:表示不使用GPU。 GPU 整卡:单个容器独享GPU。 GPU 虚拟化:容器需要使用的GPU百分比,例如设置为10%,表示该容器需使用GPU资源的10%。
导致业务Pod被驱逐重建。 容器调度与弹性插件 插件名称 插件简介 Volcano调度器 Volcano调度器提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户。 CCE集群弹性引擎 集群
建议请参见设置容器规格。 GPU配额(可选) 当集群中包含GPU节点时,才能设置GPU配额,且集群中需安装CCE AI套件(NVIDIA GPU)插件。 不使用:表示不使用GPU。 GPU 整卡:单个容器独享GPU。 GPU 虚拟化:容器需要使用的GPU百分比,例如设置为10%,表示该容器需使用GPU资源的10%。
Ingress控制器插件升级检查异常处理 云原生监控插件升级检查异常处理 Containerd Pod重启风险检查异常处理 GPU插件关键参数检查异常处理 GPU/NPU Pod重建风险检查异常处理 ELB监听器访问控制配置项检查异常处理 Master节点规格检查异常处理 Master节点子网配额检查异常处理
e7、e6、e3 磁盘增强型 d7、d6、d6nl、d2、d3 超高I/O型 i7、i7n、i3、ir7、ir7n、ir3 高性能计算型 h3、hc2 GPU加速型 pi2、pi1 p2s、p2v、p2vs、p1 g6、g5、g6v AI加速型 ai1s、ai1 Flexus云服务器X
延迟增加:CoreDNS需要处理更多的请求,可能会导致DNS查询变慢,从而影响业务性能。 资源占用率增加:为保证DNS性能,CoreDNS往往需要更高规格的配置。 解决方案 NodeLocal DNSCache可以提升服务发现的稳定性和性能。 关于NodeLocal DNSCache的介绍及如何在CCE集群中部署NodeLocal