检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
主要特性: GPU支持V100类型 集群支持权限管理 v1.11.7-r0 主要特性: Kubernetes同步社区1.11.7版本 支持创建节点池(nodepool),虚拟机/鲲鹏ARM集群均支持 CCE集群支持创建裸金属节点(VPC网络),支持裸金属和虚机混合部署 GPU支持V100类型
主要特性: GPU支持V100类型 集群支持权限管理 v1.11.7-r0 主要特性: Kubernetes同步社区1.11.7版本 支持创建节点池(nodepool),虚拟机/鲲鹏ARM集群均支持 CCE集群支持创建裸金属节点(VPC网络),支持裸金属和虚机混合部署 GPU支持V100类型
器规格。 GPU配额(可选) 当集群中包含GPU节点时,才能设置GPU配额,且集群中需安装CCE AI套件(NVIDIA GPU)插件。 不限制:表示不使用GPU。 独享:单个容器独享GPU。 共享:容器需要使用的GPU百分比,例如设置为10%,表示该容器需使用GPU资源的10%。
器规格。 GPU配额(可选) 当集群中包含GPU节点时,才能设置GPU配额,且集群中需安装CCE AI套件(NVIDIA GPU)插件。 不限制:表示不使用GPU。 独享:单个容器独享GPU。 共享:容器需要使用的GPU百分比,例如设置为10%,表示该容器需使用GPU资源的10%。
器规格。 GPU配额(可选) 当集群中包含GPU节点时,才能设置GPU配额,且集群中需安装CCE AI套件(NVIDIA GPU)插件。 不限制:表示不使用GPU。 独享:单个容器独享GPU。 共享:容器需要使用的GPU百分比,例如设置为10%,表示该容器需使用GPU资源的10%。
器规格。 GPU配额(可选) 当集群中包含GPU节点时,才能设置GPU配额,且集群中需安装CCE AI套件(NVIDIA GPU)插件。 不限制:表示不使用GPU。 独享:单个容器独享GPU。 共享:容器需要使用的GPU百分比,例如设置为10%,表示该容器需使用GPU资源的10%。
kubectl delete -f tf-mnist.yaml 使用GPU训练 TFJob可在GPU场景下进行,该场景需要集群中包含GPU节点,并安装合适的驱动。 在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflo
weight为CPU权重 Memory.score为Memory资源得分,Memory.weight为Memory权重 GPU.score为GPU资源得分,GPU.weight为GPU权重 图1 Binpack策略示例 如图所示,集群中存在两个节点,分别为Node 1和Node 2,在调度P
在CCE中实现应用高可用部署 升级实例过程中实现业务不中断 通过特权容器功能优化内核参数 使用Init容器初始化应用 CCE中使用x86和ARM双架构镜像 使用SWR触发器自动更新工作负载版本 插件高可用部署 应用容器化改造 工作负载参数配置实践 容器网络带宽限制的配置建议 使用hos
云原生监控插件兼容自建Prometheus 云原生监控插件兼容模式 若您已自建Prometheus,且您的Prometheus基于开源,未做深度定制、未与您的监控系统深度整合,建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控,无需开启“兼容模式”。 卸载您自建的Pro
显的。 虚拟GPU资源调度 支持GPU虚拟化资源调度。 参数名 取值范围 默认值 是否允许修改 作用范围 xGPU true/false true 允许 CCE Standard/CCE Turbo 支持GPU单卡算力、显存分割与隔离的调度能力 配置建议: 使用GPU的场景默认开启,不使用GPU资源可以选择关闭
e7、e6、e3 磁盘增强型 d7、d6、d6nl、d2、d3 超高I/O型 i7、i7n、i3、ir7、ir7n、ir3 高性能计算型 h3、hc2 GPU加速型 pi2、pi1 p2s、p2v、p2vs、p1 g6、g5、g6v AI加速型 ai1s、ai1 Flexus云服务器X x1、x1e
nginx-ingress插件升级检查异常处理 云原生监控插件升级检查异常处理 Containerd Pod重启风险检查异常处理 GPU插件关键参数检查异常处理 GPU/NPU Pod重建风险检查异常处理 ELB监听器访问控制配置项检查异常处理 Master节点规格检查异常处理 Master节点子网配额检查异常处理
要有哪些? 如何配置Pod使用GPU节点的加速能力? 容器使用SCSI类型云硬盘偶现IO卡住如何解决? docker审计日志量过大影响磁盘IO如何解决? thinpool磁盘空间耗尽导致容器或节点异常时,如何解决? CCE节点上监听的端口列表 GPU节点使用nvidia驱动启动容器排查思路
调度 调度概述 CPU调度 GPU调度 NPU调度 Volcano调度 云原生混部
异构资源调度(Volcano调度器支持) 支持GPU资源调度 使用该能力时,集群中需要同时安装CCE AI套件(NVIDIA GPU)。启用该能力后,可使用GPU资源运行AI训练作业,调度器提供GPU整卡调度和GPU共享调度能力,提高GPU资源利用率。 支持NPU资源调度 使用该能力时,集群中需要同时安装CCE
云原生异构计算插件 CCE AI套件(NVIDIA GPU) CCE AI套件(Ascend NPU) 父主题: 插件
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
49 检查集群管理平面网段是否与主干配置一致 检查集群管理平面网段是否与主干配置一致。 50 GPU插件检查异常处理 检查到本次升级涉及GPU插件,可能影响新建GPU节点时GPU驱动的安装。 51 节点系统参数检查异常处理 检查您节点上默认系统参数是否被修改。 52 残留packageversion检查异常处理
"name": "cce-gpu-topology-predicate" }, { "name": "cce-gpu-topology-priority"