检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
资源利用率优化调度(Volcano调度器支持) AI任务性能增强调度(Volcano调度器支持) 异构资源调度(Volcano调度器支持) Volcano调度器(v1.27及以上版本支持) 设置Volcano调度器为默认调度器后,Volcano调度器将替换kube-schedul
调度 调度概述 CPU调度 GPU调度 NPU调度 Volcano调度 云原生混部
为什么Pod调度不到某个节点上? 请排查节点和docker是否正常,排查方法请参见排查项七:内部组件是否正常。 如果节点和docker正常,而pod调度不到节点上,请确认pod是否做了亲和,排查方法请参见排查项三:检查工作负载的亲和性配置。 如果节点上的资源不足,导致节点调度不上,请扩容或者新增节点。
nager-policy来指定。Kubernetes默认支持两种策略: none:默认策略,显式地启用现有的默认CPU亲和方案,不提供操作系统调度器默认行为之外的亲和性策略。 static:针对CPU申请值设置为整数的Guaranteed Pods ,它允许该类Pod中的容器访问节点上的独占CPU资源(绑核)。
逐重新调度的场景中,通过负载感知和热点打散重调度结合使用,可以获得集群最佳的负载均衡效果。关于热点打散重调度能力的使用请参见重调度(Descheduler)。 开启负载感知调度策略,使用默认权重值5。插件详情与配置方法请参见负载感知调度。 开启重调度能力,完成负载感知重调度策略配
亲和与反亲和调度 在守护进程集(DaemonSet)中讲到使用nodeSelector选择Pod要部署的节点,其实Kubernetes还支持更精细、更灵活的调度机制,那就是亲和(affinity)与反亲和(anti-affinity)调度。 Kubernetes支持节点和Pod两
使用GPU虚拟化兼容Kubernetes默认GPU调度模式,要求配套的CCE AI 套件 (NVIDIA GPU)插件版本为2.0.10及以上、Volcano调度器插件版本为1.10.5及以上。 兼容Kubernetes默认GPU调度模式示例 使用kubectl连接集群。 创建一个使用nvidia
资源利用率优化调度 装箱调度(Binpack) 重调度(Descheduler) 节点池亲和性调度 负载感知调度 资源利用率优化调度配置案例 父主题: Volcano调度
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 CCE AI套件(NVIDIA GPU)插件使用DCGM-Exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理
级进行调度。但由于调度器会从多个维度对调度结果进行考虑,本优先级策略只是其中一个维度,因此无法百分百确保完全实现上述优先级。 Volcano调度器存在调度性能和调度结果之间的权衡。当集群存在大量可调度节点时,Volcano出于调度性能的考虑会只选择其中一部分节点来进行调度选择,不
23及以上。 节点操作系统为Huawei Cloud EulerOS 2.0。 CCE Turbo集群的弹性云服务器-物理机节点不支持使用CPU管理策略。 操作步骤 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 选择一个操作系统为Huawei
Multiprocessor)上处于Active的时间占比。 该值表示所有SM的平均值,且该值对每个块的线程数不敏感。 线程束处于Active是指一个线程束被调度且分配资源后的状态,可能是在Computing、也可能是非Computing状态(例如等待内存请求)。 该值小于0.5表示未高效利用GPU,大于0
业务优先级保障调度 优先级调度与抢占 父主题: Volcano调度
CPU调度 CPU管理策略 增强型CPU管理策略 父主题: 调度
Pod的编排与调度 无状态负载(Deployment) 有状态负载(StatefulSet) 普通任务(Job)和定时任务(CronJob) 守护进程集(DaemonSet) 亲和与反亲和调度
集群中已安装CCE AI套件(NVIDIA GPU)插件,且插件版本不低于2.0.10。 如果需要监控GPU虚拟化监控指标,集群中需要已安装Volcano调度器插件,且插件版本不低于1.10.5。 访问Prometheus Prometheus插件安装完成后会在集群中部署一系列工作负载和Serv
Standard/CCE Turbo Gang调度策略是volcano-scheduler的核心调度算法之一,它满足了调度过程中的“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费。具体算法是,观察Job下的Pod已调度数量是否满足了最小运行数量,当Job的
替换,对业务无感。 前提条件 配置 支持版本 集群版本 v1.23.8-r0、v1.25.3-r0及以上 操作系统 Huawei Cloud EulerOS 2.0操作系统 GPU类型 支持T4、V100类型的GPU 驱动版本 GPU虚拟化功能仅支持470.57.02、510.47
节点关机后Pod不重新调度 问题现象 节点关机后,节点上的Pod仍然显示running状态。通过kubectl describe pod <pod-name>命令查询Pod最新事件为: Warning NodeNotReady 17s node-controller Node is
步骤三(可选):修改Volcano调度策略 Volcano针对GPU节点的调度策略默认为Spread,即如果节点配置相同,会选择一个正在运行的容器数量最少的节点,可以尽量将容器平均分配到各个节点。而Binpack调度策略与之相反,它会尽可能地把所有的容器调度到一台节点上运行,尽量少用节点,避免资源碎片化。