检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何配置Pod使用GPU节点的加速能力? 容器使用SCSI类型云硬盘偶现IO卡住如何解决? docker审计日志量过大影响磁盘IO如何解决? thinpool磁盘空间耗尽导致容器或节点异常时,如何解决?
异构资源调度(Volcano调度器支持) 支持GPU资源调度 使用该能力时,集群中需要同时安装CCE AI套件(NVIDIA GPU)。启用该能力后,可使用GPU资源运行AI训练作业,调度器提供GPU整卡调度和GPU共享调度能力,提高GPU资源利用率。
GPU配额(可选) 当集群中包含GPU节点时,才能设置GPU配额,且集群中需安装CCE AI套件(NVIDIA GPU)插件。 不使用:表示不使用GPU。 GPU 整卡:单个容器独享GPU。
调度 调度概述 CPU调度 GPU调度 NPU调度 Volcano调度 云原生混部
云原生异构计算插件 CCE AI套件(NVIDIA GPU) CCE AI套件(Ascend NPU) 父主题: 插件
51 GPU插件检查异常处理 检查到本次升级涉及GPU插件,可能影响新建GPU节点时GPU驱动的安装。 52 节点系统参数检查异常处理 检查您节点上默认系统参数是否被修改。
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
" }, { "name": "cce-gpu-topology-priority" },
表1 v1.11版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.11.7-r2 主要特性: GPU支持V100类型 集群支持权限管理 v1.11.7-r0 主要特性: Kubernetes同步社区1.11.7版本 支持创建节点池(nodepool),虚拟机/
表1 v1.11版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.11.7-r2 主要特性: GPU支持V100类型 集群支持权限管理 v1.11.7-r0 主要特性: Kubernetes同步社区1.11.7版本 支持创建节点池(nodepool),虚拟机/
容器存储插件(Everest) CCE节点故障检测 Kubernetes Dashboard CCE集群弹性引擎 NGINX Ingress控制器 Kubernetes Metrics Server CCE容器弹性引擎 CCE突发弹性引擎(对接CCI) CCE AI套件(NVIDIA GPU
建议搭配使用 GPU加速云服务器 + 弹性负载均衡ELB + 对象存储服务OBS 图1 AI计算 父主题: 应用场景
节点成本按照CPU、内存进行成本拆分,暂不支持GPU、NPU等异构资源的拆分。如GPU类型的节点在拆分时,会出现CPU核时单价偏高。 开通成本洞察后需要等待2天时间,才能显示分析结果。 成本洞察以天为粒度呈现成本分析结果。 父主题: 成本洞察
如下图所示,可以按照事件提示进行修改。 父主题: 资源利用率优化调度
实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态 工作负载异常:已停止 工作负载异常:GPU
节点特殊资源:部分Pod可能请求特殊的资源类型,例如GPU等资源,调度器只能将其调度到GPU类型的节点上。 节点健康状态:节点的健康状况和状态可能影响调度决策,不健康的节点可能不会调度新的Pod。
&AI相关 基于Nvidia xid进行GPU故障定位 CCE中GPU虚拟化的使用 Kubernetes场景下基于Nvidia GPU-operator实现图形渲染能力 Java应用容器化相关 Java业务容器化后云原生监控内存使用率高问题基本排查思路 DevOps相关 Jenkins
集群id version String 插件模板版本号,如1.0.0 addonTemplateName String 插件模板名称,如coredns addonTemplateType String 插件模板类型 addonTemplateLogo String 插件模板logo图片的地址
节点,支持GPU资源限制 支持web-terminal插件 v1.7.3-r13 主要特性: 新建集群的Docker版本升级到1706 支持DNS级联 支持插件化管理 增强PVC和PV事件的上报机制 裸金属场景支持对接OBS对象存储 v1.7.3-r12 主要特性: 集群支持创建/
节点,支持GPU资源限制 支持web-terminal插件 v1.7.3-r13 主要特性: 新建集群的Docker版本升级到1706 支持DNS级联 支持插件化管理 增强PVC和PV事件的上报机制 裸金属场景支持对接OBS对象存储 v1.7.3-r12 主要特性: 集群支持创建/