检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
参数名 取值范围 默认值 是否允许修改 作用范围 drf true/false true 允许 CCE Standard/CCE Turbo DRF调度算法的全称是Dominant Resource Fairness,是基于容器组Domaint Resource的调度算法。
人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器。
CCE AI套件(Ascend NPU)版本发布记录 表1 CCE AI套件(Ascend NPU)插件版本记录 插件版本 支持的集群版本 更新特性 2.1.46 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 v1.31 支持CCE v1.31
CCE AI套件(Ascend NPU) 插件介绍 CCE AI套件(Ascend NPU)是支持容器里使用NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。
约束与限制 集群中使用“AI加速型”节点时必须安装CCE AI套件(Ascend NPU)插件。
CCE AI套件(NVIDIA GPU) 插件介绍 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。
CCE AI套件(NVIDIA GPU) 插件简介 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.42 v1.28 v1.29 v1.30 v1.31 新增NVIDIA 535.216.03驱动,支持XGPU特性 2.7.41
对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
Volcano提供了一个针对BigData和AI场景下,通用、可扩展、高性能、稳定的原生批量计算平台,方便AI、大数据、基因、渲染等诸多行业通用计算框架接入,提供高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等能力。
Volcano调度器 插件简介 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。
除运维人员以外,其他人员(例如数据科学家、AI算法工程师等)也能通过相关监控指标了解业务的GPU使用情况,以便进行容量规划和任务调度。 新一代NVIDIA支持使用数据中心GPU管理器(DCGM)来管理大规模集群中的GPU。
初始延迟之前的就绪态的状态值默认为 Failure。 如果容器不提供就绪态探针,则默认状态为 Success。 启动探针 参数名 取值范围 默认值 是否允许修改 作用范围 StartupProbe 无 无 允许 - 指示容器中的应用是否已经启动。
这个时候DRF应运而生,简单来说DRF就是 max-min fairness 算法的泛化版本,可以支持多种类型资源的公平分配, 即每个用户的主资源满足 max-min fairness 要求。
Containerd Pod重启风险检查异常处理 检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。
相关链接 containerd-shim API exposed to host network containers 父主题: 漏洞公告
算法上会优先选择调度到CCE节点。
负载均衡器配置:后端云服务器组 后端云服务器组的负载均衡算法 服务对接的后端实例会在一个后端云服务器组中,此参数支持配置后端云服务器组的负载均衡算法。
执行stat /run/containerd/containerd.sock命令,若发现存在该文件则会导致docker启动失败。 执行rm -rf /run/containerd/containerd.sock命令,然后重新进行集群升级检查。 父主题: 升级前检查异常问题排查