检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
确认“节点池混部开关”及“资源超卖”开关已打开,详情请参见云原生混部配置。 在左侧导航栏中选择“配置中心”,在上方的标签中选择“调度配置”,在“设置集群默认调度器”配置中选择“Volcano 调度器”,并单击“专家模式”右侧的“开始使用”,进入专家模式配置页面。 进入CCE专家模式配置页面,配置以下两个选项:
例可以调度到指定GPU显卡类型的节点上。 定时规则 并发策略:支持如下三种模式。 Forbid:在前一个任务未完成时,不创建新任务。 Allow:定时任务不断新建Job,会抢占集群资源。 Replace:已到新任务创建时间点,但前一个任务还未完成,新的任务会取代前一个任务。 定时
是Deployment。 图1 Deployment 一个Deployment可以包含一个或多个Pod副本,每个Pod副本的角色相同,所以系统会自动为Deployment的多个Pod副本分发请求。 Deployment集成了上线部署、滚动升级、创建副本、恢复上线的功能,在某种程度
ble、Guaranteed。 根据Pod调度请求的被耗尽资源的消耗量。 接下来,Pod按照下面的顺序进行驱逐(QOS): BestEffort -> Burstable -> Guaranteed BestEffort类型的Pod:系统用完了全部内存时,该类型Pod会最先被终止。
Burst提供了一种可以短暂突破CPU Limit值的弹性限流机制,以降低业务长尾响应时间。其原理是业务在每个CPU调度周期内使用的CPU配额有剩余时,系统对这些CPU配额进行累计,在后续的调度周期内如果需要突破CPU Limit时,使用之前累计的CPU配额,以达到突破CPU Limit的效果。
subJobs Array of Job objects 子任务的列表。 包含了所有子任务的详细信息 在创建集群、节点等场景下,通常会由多个子任务共同组成创建任务,在子任务都完成后,任务才会完成 表5 Job 参数 参数类型 描述 kind String API类型,固定值“Job”,该值不可修改。
会与Pod调度到的节点不在同一个AZ,导致Pod无法调度成功。 解决方案 CCE提供了名为csi-disk-topology的StorageClass,也叫延迟绑定的云硬盘存储类型。使用csi-disk-topology创建PVC时,不会立即创建PV,而是等Pod先调度,然后根据
如果选择安装grafana组件,也可能出现同样的问题。 图1 插件实例调度失败 问题原因 当出现以上报错内容,说明集群中已存在prometheus实例需要的存储卷,但该存储卷对应的云硬盘未满足与节点同一可用区的要求,导致调度失败。这可能是由于集群并非首次安装kube-prometheus-stack插件引起。
caa96e0ca468563208695c1ad5cc141e0/cpuset.cpus 回显如下,表示绑定1号CPU。 1 父主题: 调度策略
Pod:Kubernetes中的最小调度对象 容器组(Pod) 容器组(Pod)是Kubernetes创建或部署的最小单位。一个Pod封装一个或多个容器(Container)、存储资源(Volume)、一个独立的网络IP以及管理控制容器运行方式的策略选项。 Pod使用主要分为两种方式:
创建普通任务(Job) 操作场景 普通任务是一次性运行的短任务,部署完成后即可执行。正常退出(exit 0)后,任务即执行完成。 普通任务是用来控制批处理型任务的资源对象。批处理业务与长期伺服业务(Deployment、Statefulset)的主要区别是: 批处理业务的运行有头
138节点上的第0张卡。 在使用其他卡时,Ascend310-0的Ascend310应该修改为对应卡名称。 NPU驱动版本应大于等于23.0。 父主题: 调度策略
示例:某部门权限设计及配置 概述 随着容器技术的快速发展,原有的分布式任务调度模式正在被基于Kubernetes的技术架构所取代。云容器引擎(Cloud Container Engine,简称CCE)是高度可扩展的、高性能的企业级Kubernetes集群,支持社区原生应用和工具。
<none> ... 一键设置节点调度策略 您可以通过控制台将节点设置为不可调度,系统会为该节点添加键为node.kubernetes.io/unschedulable,效果为NoSchedule的污点。节点设置为不可调度后,新的Pod将无法调度至该节点,节点上已运行的Pod则不受影响。
在CCE集群中使用容器的安全配置建议 控制Pod调度范围 通过nodeSelector或者nodeAffinity限定应用所能调度的节点范围,防止单个应用异常威胁到整个集群。参考节点亲和性。 在逻辑多租等需强隔离场景,系统插件应该尽量运行在单独的节点或者节点池上,与业务Pod分离
便后续负载的调度。 约束与限制 节点:分布式集群当前仅支持普通x86虚拟机。暂不支持节点迁移功能。 节点池:节点池随机调度功能仅限于分区内。 存储:当前仅支持在边缘区域创建云硬盘(EVS),其他种类存储方式不推荐使用。 服务与路由:仅支持独享型ELB。 插件:分布式集群支持如下插件,且优先将插件部署在云上节点。
定时任务 CronJobSpec
机调度。 指定节点池调度:指定插件实例部署的节点池。若不指定,将根据集群默认调度策略进行随机调度。 自定义亲和策略:填写期望插件部署的节点标签实现更灵活的调度策略,若不填写将根据集群默认调度策略进行随机调度。 同时设置多条自定义亲和策略时,需要保证集群中存在同时满足所有亲和策略的节点,否则插件实例将无法运行。
开启预置采集后,系统预置的采集任务会由ServiceMonitor/PodMonitor形式转换为方便可视化管理的采集任务形式,您可以方便地对云原生监控插件的系统预置采集任务进行管理,按需开启或关闭采集任务,添加基础免费指标外的采集指标等。 您对系统预置采集任务的管理,在插件升级时可以得到继承和保留。与此同
集群升级预检查任务 Rollback: 集群升级回归任务 Snapshot: 集群升级快照任务 PostCheck: 集群升级后检查任务 taskID String 升级任务项ID status String 集群升级状态: Init: 任务初始状态 Queuing: 任务已进入执行队列