检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群架构选择X86,在ARM节点上安装本地集群,则会安装失败报错: 集群架构选择ARM,在X86节点上安装本地集群,则会安装失败报错。 解决方案:集群节点CPU架构暂不支持异构混部,请确认集群架构与安装部署本地集群节点的cpu架构一致。 若集群架构选择X86,请选择X86节点上安装本地集群。 若集群架
详细信息请参见Ingress-Nginx Controller和社区官方项目。 本小节将指导您为本地集群安装与使用Ingress-nginx。 约束与限制 该小节指导仅适用于UCS本地集群安装Ingress-nginx。 安装Ingress-nginx 登录UCS控制台。 左侧导
更好工作。关于MetalLB的详细信息请参见社区官方项目和MetalLB官网。 本章节,将从本地集群的视角出发,提供Metallb的创建及使用指导。 约束与限制 该文档仅适用于为UCS本地集群安装Metallb。 前提条件 按照网络管理Cilium介绍章节,已完成开启集群的BGP
metadata: labels: app: gpu-app spec: containers: - name: container-1 image: <your_image_address> # 请替换为您的镜像地址
NPU调度 NPU调度概述 NPU节点标签 创建NPU应用 父主题: 管理本地集群
备份与恢复 背景 UCS本地集群安装完成后,为保证集群高可用,防止在发生集群故障时数据丢失,UCS支持对于本地集群上的3个master节点上的证书文件、加解密物料、etcd数据等信息的备份,以保障UCS本地集群故障后的数据恢复。 约束与限制 无论是单master还是多master故障,节点IP须保持不变。
GPU调度 GPU调度概述 准备GPU资源 创建GPU应用 监控GPU资源 父主题: 管理本地集群
监控GPU资源 本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。 前提条件 完成GPU资源准备。 当前本地集群已创建GPU资源。 当前本地集群开启了监控能力。 GPU监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择对应的集群并开启监控,详细操作请参照集群开启监控。
T4、V100 驱动版本 GPU虚拟化功能仅支持470.57.02、510.47.03、535.54.03版本的GPU驱动。 容器运行时 containerd 插件 集群中需要同时安装以下插件: volcano插件:1.10.1及以上版本 gpu-device-plugin插件:2.0.0及以上版本
安装本地集群的业务规划 基础软件规划 数据规划 父主题: 本地集群
NPU调度概述 UCS本地集群管理支持NPU异构资源调度能力。 可实现快速高效地处理推理和图像识别等工作。 NPU调度可以指定Pod申请NPU的数量,为工作负载提供NPU资源。 父主题: NPU调度
安装前准备(私网接入) 本小节指导您进行本地集群的安装前准备。在选择私网接入集群时,才需执行安装前准备。选择“公网接入”时,可直接执行安装及验证。 本地集群的安装前准备包括创建虚拟私有云并与线下IDC网络环境打通、创建终端节点并将其配置在VPC中的DNS服务器中。 部署网络环境
基础软件规划 本地集群节点的操作系统、内核版本等基础软件规划需要符合表1中的要求。 表1 基础软件规划 系统架构 系统类型 网络模型 操作系统版本 内核版本限制 x86 Ubuntu 22.04 Cilium 检查命令:cat /etc/lsb-release DISTRIB_DESCRIPTION="Ubuntu
GPU调度概述 工作负载支持使用节点GPU资源,GPU资源使用可以分为如下两种模式: GPU静态分配(共享/独享):按比例给Pod分配GPU显卡资源,支持独享(分配单张/多张显卡)和共享(部分显卡)方式。 GPU虚拟化:UCS On Premises GPU采用xGPU虚拟化技术
创建终端节点以私网接入本地集群 应用场景 用户在线下IDC有kubernetes集群,接入到UCS开启容器智能分析服务,能够与SWR、OBS通信,在无法通过公网连接的情况下,可以先通过VPN与华为云VPC连接,然后通过VPC终端节点服务,让VPC能够在内网访问UCS、SWR、DNS、OBS、CIA。
创建NPU节点后,安装huawei-npu插件,需要给节点添加标签“accelerator/huawei-npu”,标签值可为空。 添加NPU节点标签 依次单击“本地集群>节点管理>选择节点>标签与污点管理”。 选择NPU节点,添加标签“accelerator/huawei-npu”,标签值可为空。 图1
please wait ... Start to handle images tasks, please wait ... Images(38) migration finished, 0 images tasks failed, 0 tasks generate failed 示例如下:
本地集群如何扩容容器智能分析插件的存储磁盘? 问题描述 当容器智能分析插件(kube-prometheus-stack)所依赖的PVC存储中的磁盘写满时,prometheus-server-0 Pod的日志标准输出会出现“no space left on device”报错,此时
本地集群 本地集群概述 安装本地集群的业务规划 注册本地集群 安装本地集群 管理本地集群 父主题: UCS集群
本地集群 创建终端节点以私网接入本地集群 使用工作负载Identity安全访问云服务