检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
否则会导致超卖节点调度异常。相关配置情况如表3所示。 标签配置需要您自行保证,调度器不会对插件和节点配置进行检查。 表3 超卖标签配置调度说明 插件超卖配置 节点超卖标签 调度行为 有 有 超卖调度 有 无 正常调度 无 无 正常调度 无 有 无法调度,或者调度失败,应避免这种配置
调度器性能配置 请求至kube-apiserver的QPS配置 与kube-apiserver通信的qps 参数名 取值范围 默认值 是否允许修改 作用范围 kube-api-qps 大于等于0 100 允许 CCE Standard/CCE Turbo 与kube-apiserver通信的qps
提供的GPU驱动版本。若CCE推荐的驱动版本无法匹配您使用的CUDA Toolkit版本,必须使用非推荐的驱动版本,则需要您自行验证机型、系统及驱动版本间的配套兼容性。 CUDA Toolit版本 兼容性所需的最低驱动版本(Linux x86_64) CUDA 12.x >=525
容器调度与弹性插件 Volcano调度器 CCE集群弹性引擎 CCE容器弹性引擎 CCE突发弹性引擎(对接CCI) 容器垂直弹性引擎 父主题: 插件
云原生混部 云原生混部概述 开启云原生混部 动态资源超卖 基于Pod实例画像的资源超卖 CPU Burst弹性限流 出口网络带宽保障 父主题: 调度
调度工作负载 工作负载调度策略概述 设置指定节点调度(nodeSelector) 设置节点亲和调度(nodeAffinity) 设置工作负载亲和/反亲和调度(podAffinity/podAntiAffinity) 父主题: 工作负载
以删除任意一个Pod。 但是在某些场景下,这并不满足需求,比如有些分布式的场景,要求每个Pod都有自己单独的状态时,比如分布式数据库,每个Pod要求有单独的存储,这时Deployment无法满足业务需求。 分布式有状态应用的特点主要是应用中每个部分的角色不同(即分工不同),比如数
r组件负责Pod的调度,对每一个新创建的 Pod 或者是未被调度的 Pod,kube-scheduler 会选择一个最优的节点去运行这个 Pod。kube-scheduler 给一个 Pod 做调度选择包含过滤和打分两个步骤。过滤阶段会将所有满足 Pod 调度需求的节点选出来,在打分阶段
指定节点调度:指定插件实例部署的节点。若不指定,将根据集群默认调度策略进行随机调度。 指定节点池调度:指定插件实例部署的节点池。若不指定,将根据集群默认调度策略进行随机调度。 自定义亲和策略:填写期望插件部署的节点标签实现更灵活的调度策略,若不填写将根据集群默认调度策略进行随机调度。
指定节点调度:指定插件实例部署的节点。若不指定,将根据集群默认调度策略进行随机调度。 指定节点池调度:指定插件实例部署的节点池。若不指定,将根据集群默认调度策略进行随机调度。 自定义亲和策略:填写期望插件部署的节点标签实现更灵活的调度策略,若不填写将根据集群默认调度策略进行随机调度。 同时设置多条自定义亲和策略
机调度。 指定节点池调度:指定插件实例部署的节点池。若不指定,将根据集群默认调度策略进行随机调度。 自定义亲和策略:填写期望插件部署的节点标签实现更灵活的调度策略,若不填写将根据集群默认调度策略进行随机调度。 同时设置多条自定义亲和策略时,需要保证集群中存在同时满足所有亲和策略的节点,否则插件实例将无法运行。
支持负载感知调度 镜像OS更新为HCE 2.0 优化CSI资源抢占能力 优化负载感知重调度能力 优化混部场景抢占能力 1.11.9 v1.19.16 v1.21 v1.23 v1.25 v1.27 优化NPU芯片rank table排序能力 支持应用弹性伸缩场景下的优先级调度 1.11
先保障在线业务的网络带宽。 约束与限制 使用出口网络带宽保障特性需满足以下要求: 仅支持Huawei Cloud EulerOS 2.0操作系统的节点。 仅支持CCE Turbo集群,且集群版本为v1.23及以上。 集群中需要安装Volcano 1.9.0及以上版本的插件,且开启
填写基本信息。“CCI弹性承载”选择“强制调度策略”。关于调度策略更多信息,请参考调度负载到CCI。 进行容器配置。 配置完成后,单击“创建工作负载”。 在工作负载页面,选择工作负载名称,单击进入工作负载管理界面。 工作负载所在节点为CCI集群,说明负载成功已调度到CCI。 插件卸载 登录CCE控制台。
0及以上版本的Volcano插件。 约束与限制 开启云原生混部后,Volcano调度器会开启超卖插件oversubscription,使用云原生混部过程中请确保该插件处于启用状态。 混部agent以DaemonSet方式亲和部署在OS类型为Huawei Cloud EulerOS 2.0 x86的节点上,非Huawei
定时任务停止一段时间后,为何无法重新启动? 定时任务在运行过程中,如果被暂停,再次被开启时,控制器会检查上一次调度的时间点到现在所错过了调度次数。如果错过的调度次数超过100次, 那么它就不会启动这个任务并记录这个错误,详情请参考CronJob限制。 Cannot determine
守护进程集(DaemonSet) 守护进程集(DaemonSet) DaemonSet(守护进程集)在集群的每个节点上运行一个Pod,且保证只有一个Pod,非常适合一些系统层面的应用,例如日志收集、资源监控等,这类应用需要每个节点都运行,且不需要太多实例,一个比较好的例子就是Kubernetes的kube-proxy。
也是云原生混部解决方案中的两个核心设计:全域统一调度和资源分级管控。 全域统一调度和资源分级管控 全域统一调度 应用的全域统一调度的核心是全域和统一,比如:分布式云场景中跨云、跨集群的统一调度,以及不同在线应用、离线任务的统一调度。 首先,Volcano通过静态分析,获取应用的静
auto:根据用户集群内调度器实际打分结果自动决定是否弹性至CCI,其中在TaintToleration算法上会优先选择调度到CCE节点。 localPrefer:集群资源不足时,将Pod部署到CCI。 enforce:强制调度至CCI。 off:不调度至CCI。 业务在离线混部优先级
例可以调度到指定GPU显卡类型的节点上。 定时规则 并发策略:支持如下三种模式。 Forbid:在前一个任务未完成时,不创建新任务。 Allow:定时任务不断新建Job,会抢占集群资源。 Replace:已到新任务创建时间点,但前一个任务还未完成,新的任务会取代前一个任务。 定时