检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
调度策略(亲和与反亲和) 创建工作负载时可以使用nodeSelector选择Pod要部署的节点,其实Kubernetes还支持更精细、更灵活的调度机制,那就是亲和(affinity)与反亲和(anti-affinity)调度。 Kubernetes支持节点和Pod两个层级的亲和与
GPU调度 GPU调度概述 准备GPU资源 创建GPU应用 监控GPU资源 父主题: 管理本地集群
GPU调度概述 工作负载支持使用节点GPU资源,GPU资源使用可以分为如下两种模式: GPU静态分配(共享/独享):按比例给Pod分配GPU显卡资源,支持独享(分配单张/多张显卡)和共享(部分显卡)方式。 GPU虚拟化:UCS On Premises GPU采用xGPU虚拟化技术
容器智能分析 集群因插件资源残留开启监控失败怎么办? 集群因策略拦截开启监控失败怎么办? 如何修改kube-state-metrics组件的采集配置?
容器智能分析 容器智能分析概述 为集群开启监控 容器洞察 健康诊断 仪表盘 父主题: 可观测性
NPU调度概述 UCS本地集群管理支持NPU异构资源调度能力。 可实现快速高效地处理推理和图像识别等工作。 NPU调度可以指定Pod申请NPU的数量,为工作负载提供NPU资源。 父主题: NPU调度
NPU调度 NPU调度概述 NPU节点标签 创建NPU应用 父主题: 管理本地集群
CIAOperations(建议)权限的用户可进行容器智能分析相关的操作。 本地集群和附着集群目前只支持将指标和事件上报到北京四Region的AOM 2.0和LTS服务;华为云集群目前只支持北京四、上海一Region启用容器智能分析服务。 使用流程 容器智能分析的使用流程如图1所示。 图1 容器智能分析使用流程 父主题:
配置调度与差异化 集群调度策略 当前界面支持集群权重和自动均衡两种策略。 通过控制台配置调度策略 登录UCS控制台。 在创建工作负载时,单击“下一步:调度与差异化”。 添加调度策略。 表1 调度策略 策略 描述 集群权重策略 需要您选择集群并配置分发权重,按照集群权重配比分发Pod。
管理流量策略 暂停调度策略 对于已创建的流量策略,如发生集群故障倒换等突发场景时,支持将某个调度策略暂停使用,待故障解除后再启用调度策略。下面以暂停调度策略为例进行说明,启用调度策略的方法与暂停一致,不再赘述。 登录UCS控制台,在左侧导航栏中单击“流量分发”。 在对应的调度策略框右上角位置单击“暂停”。
监控GPU资源 本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。 前提条件 完成GPU资源准备。 当前本地集群已创建GPU资源。 当前本地集群开启了监控能力。 GPU监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择对应的集群并开启监控,详细操作请参照集群开启监控。
粒度为国家/地区。 图1 添加调度策略 单击“确定”,待流量调度策略创建成功后,华东地区的用户将优先访问选定线路。 检验新增调度策略是否生效,参考怎样测试域名解析是否生效?。 您可以在华东地区使用已经连接Internet的终端,输入如下命令测试调度策略是否生效: nslookup
健康诊断 概述 健康诊断是容器智能分析的一个重要功能,用于诊断集群的健康状态。开通容器智能分析后,健康诊断将基于集群的配置和kube-prometheus-stack插件上报至AOM的指标,从集群、节点、工作负载、核心插件、外部依赖的维度出发,提供全面的集群健康状态检查。同时,该
源为GPU,然后选择资源使用模式: 整卡模式:整卡模式采用 Kubernetes 默认的调度方式,将 Pod 调度至满足 GPU 资源需求的节点上。 共享模式:共享模式可将多个 Pod 调度至同一张 GPU 卡上抢占式运行,负载资源使用率波动较大时能提高空闲 GPU 资源使用率 虚拟化模式:采用自研的
更改驱动版本后,需要重启节点才能生效。 重启节点前需要排空节点中的Pod,在进行升级重启的操作。请注意预留GPU资源以满足节点排空过程中的Pod调度需求,防止资源不足导致Pod调度失败影响业务运行。 登录UCS控制台,单击集群名称进入集群,在左侧导航栏中选择“插件管理”,查看“已安装插件”中是否存在v
容器洞察概述 查看舰队总览 查看集群情况 查看集群内节点情况 查看集群内工作负载情况 查看集群内Pod情况 查看集群内事件情况 父主题: 容器智能分析
为应对业务高峰期的流量冲击,UCS提供了智能的分布式流量治理和算力调度管理能力,灵活分配业务流量和边云资源,有效提升业务稳定性和用户体验。 优势 用户就近接入 根据用户所属区域,实现智能路由、就近接入,减少业务端到端时延。 统一算力供给 跨地域算力协同,根据直播人数和应用需要,灵活调度边端、云端资源,提升资源利用率。
为华为云集群开启监控 为本地集群开启监控 为附着集群开启监控 为多云集群开启监控 为伙伴云集群开启监控 修改监控配置 关闭监控 父主题: 容器智能分析
查看集群内事件情况 Kubernetes事件涵盖了集群的运行状态和各类资源的调度情况,对运维人员日常观察资源的变更以及定位问题均有帮助。如果您需要监控集群内事件,可以前往“容器洞察 > 事件”页面查看。为了实现这一目标,您需要为集群安装log-agent插件,该插件可以采集Kubernetes事件,并在“容器洞察
nds: 30 schedulerName: volcano ## 使用的调度器指定为volcano tolerations: - key: node.kubernetes.io/not-ready