检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Init Containers CPUs - CPU Manager Static Policy。 在使用时您可以利用节点亲和调度将如上配置的Pod调度到开启静态(static)CPU管理策略的节点上,这样就能够达到独占CPU的效果。 设置独占CPU的YAML示例如下: kind:
oversubscription_ratio 否 int Volcano调度环境中Node资源的超分比例 descheduler_enable 否 Bool 是否支持重调度 enable_workload_balancer 否 Bool 是否支持负载均衡器 default_scheduler_conf 是
Pod的编排与调度 无状态负载(Deployment) 有状态负载(StatefulSet) 普通任务(Job)和定时任务(CronJob) 守护进程集(DaemonSet) 亲和与反亲和调度
使用GPU虚拟化兼容Kubernetes默认GPU调度模式,要求配套的CCE AI 套件 (NVIDIA GPU)插件版本为2.0.10及以上、Volcano调度器插件版本为1.10.5及以上。 兼容Kubernetes默认GPU调度模式示例 使用kubectl连接集群。 创建一个使用nvidia
亲和与反亲和调度 在守护进程集(DaemonSet)中讲到使用nodeSelector选择Pod要部署的节点,其实Kubernetes还支持更精细、更灵活的调度机制,那就是亲和(affinity)与反亲和(anti-affinity)调度。 Kubernetes支持节点和Pod两
为什么Pod调度不到某个节点上? 请排查节点和docker是否正常,排查方法请参见排查项七:内部组件是否正常。 如果节点和docker正常,而pod调度不到节点上,请确认pod是否做了亲和,排查方法请参见排查项三:检查工作负载的亲和性配置。 如果节点上的资源不足,导致节点调度不上,请扩容或者新增节点。
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 CCE AI套件(NVIDIA GPU)插件使用DCGM-Exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理
调度 调度概述 CPU调度 GPU调度 NPU调度 Volcano调度 云原生混部
GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。 GPU虚拟化的优势 CCE提供的GPU虚拟化功能优势如下: 灵
资源利用率优化调度 装箱调度(Binpack) 重调度(Descheduler) 节点池亲和性调度 负载感知调度 资源利用率优化调度配置案例 父主题: Volcano调度
业务优先级保障调度 优先级调度与抢占 父主题: Volcano调度
级进行调度。但由于调度器会从多个维度对调度结果进行考虑,本优先级策略只是其中一个维度,因此无法百分百确保完全实现上述优先级。 Volcano调度器存在调度性能和调度结果之间的权衡。当集群存在大量可调度节点时,Volcano出于调度性能的考虑会只选择其中一部分节点来进行调度选择,不
增强型CPU管理策略 在Kubernetes默认提供的CPU管理策略中有none和static两种: none: 默认不开启CPU管理策略,表示现有的调度行为。 static:开启静态绑核的CPU管理策略,允许为节点上具有某些资源特征的 Pod(Guaranteed pod)赋予增强的 CPU
Multiprocessor)上处于Active的时间占比。 该值表示所有SM的平均值,且该值对每个块的线程数不敏感。 线程束处于Active是指一个线程束被调度且分配资源后的状态,可能是在Computing、也可能是非Computing状态(例如等待内存请求)。 该值小于0.5表示未高效利用GPU,大于0
例可以调度到指定GPU显卡类型的节点上。 定时规则 并发策略:支持如下三种模式。 Forbid:在前一个任务未完成时,不创建新任务。 Allow:定时任务不断新建Job,会抢占集群资源。 Replace:已到新任务创建时间点,但前一个任务还未完成,新的任务会取代前一个任务。 定时
集群类型 ELB类型 放通安全组 协议端口 放通源地址网段 CCE Standard 共享型ELB 节点安全组,名称规则默认是{集群名}-cce-node-{随机ID} 如果集群中绑定了自定义的节点安全组,请根据实际进行选择。 ICMP的全部端口 共享型ELB网段100.125
CPU调度 CPU管理策略 增强型CPU管理策略 父主题: 调度
以删除任意一个Pod。 但是在某些场景下,这并不满足需求,比如有些分布式的场景,要求每个Pod都有自己单独的状态时,比如分布式数据库,每个Pod要求有单独的存储,这时Deployment无法满足业务需求。 分布式有状态应用的特点主要是应用中每个部分的角色不同(即分工不同),比如数
否则会导致超卖节点调度异常。相关配置情况如表3所示。 标签配置需要您自行保证,调度器不会对插件和节点配置进行检查。 表3 超卖标签配置调度说明 插件超卖配置 节点超卖标签 调度行为 有 有 超卖调度 有 无 正常调度 无 无 正常调度 无 有 无法调度,或者调度失败,应避免这种配置
指定,将根据集群默认调度策略随机调度。 指定节点池调度:指定工作负载Pod部署的节点池。若不指定,将根据集群默认调度策略随机调度。 自定义亲和策略:根据节点标签实现灵活的调度策略,支持的亲和性规则请参见表2。选择合适的策略类型后可以添加对应的调度策略,参数详情请参见表3。 自定义亲和策略