检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Volcano调度器 插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
亲和策略的节点,否则插件实例将无法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。
Scheduler工作流 Volcano Scheduler的工作流程如下: 客户端提交的Job被调度器识别到并缓存起来。 周期性开启会话,一个调度周期开始。 将没有被调度的Job发送到会话的待调度队列中。 遍历所有的待调度Job,按照定义的次序依次执行enqueue、allocate、pr
例,介绍灰度发布和蓝绿发布的完整流程。 Bookinfo应用分析 Bookinfo是一个模仿在线书店的应用,页面上会显示一本书籍的描述,书籍的细节(如页数),以及关于书籍的一些评论。 Bookinfo应用由四个单独的服务构成,几个服务是由不同的语言编写的。这些服务对应用服务网格A
升级管控检查异常处理 检查项内容 检查集群是否处于升级管控中。 解决方案 CCE基于以下几点原因,可能会暂时限制该集群的升级功能: 基于用户提供的信息,该集群被识别为核心重点保障的生产集群。 正在或即将进行其他运维任务,例如Master节点3AZ改造等。 请根据界面日志联系技术支持人员了解限制原因并申请解除升级限制。
Kubeflow在调度环境使用的是Kubernetes的默认调度器。而Kubernetes默认调度器最初主要是为长期运行的服务设计的,对于AI、大数据等批量和弹性调度方面还有很多的不足。主要存在以下问题: 资源争抢问题 TensorFlow的作业包含Ps和Worker两种不同的角色,这两种角色的Pod要
Ingress对外暴露的IP。 预期输出: Old Nginx 步骤2:灰度发布新版本服务 设置访问新版本服务的流量切分策略。云容器引擎CCE支持设置以下三种策略,实现灰度发布和蓝绿发布,您可以根据实际情况进行选择。 基于Header的流量切分、基于Cookie的流量切分、基于服务权重的流量切分
云硬盘存储卷:CCE支持将EVS创建的云硬盘挂载到容器的某一路径下。当容器迁移时,挂载的云硬盘将一同迁移,这种存储方式适用于需要永久化保存的数据。 文件存储卷: CCE支持创建SFS存储卷并挂载到容器的某一路径下,也可以使用底层SFS服务创建的文件存储卷,SFS存储卷适用于多读多写的持久化存储,适用
是 String CCE集群版本 device_version 是 String 插件的版本 driver_version 是 String 插件开启自动安装驱动时,插件里负责安装驱动的Pod的镜像tag,一般与device_version相同 swr_addr 是 String
ht总和的比例来给队列划分资源;另外也可以为队列设置资源的Capability值,来确定该队列能够使用的资源上限。 例如下图中,通过这两个队列去共享整个集群的资源,一个队列获得40%的资源,另一个队列获得60%的资源,这样可以把两个不同的队列映射到不同的部门或者是不同的项目中。并
开通成本洞察 成本洞察基于真实账单和集群资源用量统计数据,通过自研的成本画像算法进行成本拆分,提供以部门、集群、命名空间、应用等维度的成本画像。成本洞察能够帮助成本管理人员分析集群成本开销、资源使用状况,识别资源浪费,为下一步的成本优化提供输入。 本文主要介绍如何开通成本洞察功能。
能制定更好的成本管理方案。 集群资源视角成本洞察:以成本运维人员的角度,着重呈现CCE集群内部从命名空间、应用、节点池等多个维度的集群成本开销和资源使用状况,进而识别可优化的应用。 成本洞察关键能力 丰富的容器成本覆盖范围:支持成本分析的费用包括CCE集群管理费用、CCE集群关联的ECS和EVS资源费用。
请确保您自建的Prometheus满足以下条件,否则无法正常共存运行: 若您的Prometheus不是基于Operator社区的KubePrometheus构建的,则满足兼容性要求。 若您的Prometheus是基于Operator社区的KubePrometheus构建的,则CRD
基于Pod实例画像的资源超卖 Volcano新增基于Pod实例画像的超卖量算法。该算法持续采集并累积节点上Pod的CPU和内存利用率,统计Pod资源用量的概率分布特征,进而计算出节点资源用量的概率分布特征,从而在一定的置信度下给出节点资源用量的评估值。基于Pod实例画像的超卖量算
业务优先级保障调度 根据业务的重要性和优先级,设置自定义的策略对业务占用的资源进行调度,确保关键业务的资源优先级得到保障。 业务优先级保障调度 AI任务性能增强调度 根据AI任务的工作性质、资源的使用情况,设置对应的调度策略,可以增强集群业务的吞吐量,提高业务运行性能。 AI任务性能增强调度
30d 1.21以前版本的集群中,Pod中获取Token的形式是通过挂载ServiceAccount的Secret来获取Token,这种方式获得的Token是永久的。该方式在1.21及以上的版本中不再推荐使用,并且根据社区版本迭代策略,在1.25及以上版本的集群中,ServiceA
PA是典型的调度层弹性组件,通过HPA可以调整应用的副本数,调整的副本数会改变当前负载占用的调度容量,从而实现调度层的伸缩。 节点弹性伸缩:即资源层弹性,主要是集群的容量规划不能满足集群调度容量时,会通过弹出ECS或CCI等资源的方式进行调度容量的补充。CCE容器实例弹性到CCI
模,因此对具有明显周期性的工作负载具有更佳效果。 AHPA启动后拉取指定的工作负载过去一定时间的监控数据(至少一周,至多八周),利用统计学原理分析建模。随后每分钟一次,根据当前时间点的历史监控数据,结合未来一段时间窗口的历史数据,给出当前时间点工作负载的推荐副本数,提前准备Pod
云原生成本治理是基于FinOps理念的容器成本治理解决方案,提供部门维度、集群维度、命名空间维度的成本和资源画像,并通过工作负载资源推荐等优化手段协助企业IT成本管理人员实现容器集群的提效降本诉求。 成本洞察 成本洞察基于真实账单和集群资源用量统计数据,通过自研的成本画像算法进行
根据不同的适用机型选择是否启用驱动,启用后插件将根据用户指定的驱动版本自动进行驱动安装。默认使用“推荐驱动”,您也可以选择“自定义驱动”并填写完整的驱动地址。 插件将根据用户针对指定机型选择的驱动版本进行驱动安装。仅对未安装NPU驱动的节点生效,已安装 NPU 驱动的节点会保持