备份与恢复 背景 UCS本地集群安装完成后,为保证集群高可用,防止在发生集群故障时数据丢失,UCS支持对于本地集群上的3个master节点上的证书文件、加解密物料、etcd数据等信息的备份,以保障UCS本地集群故障后的数据恢复。 约束与限制 无论是单master还是多master故障,节点IP须保持不变。
集群架构选择X86,在ARM节点上安装本地集群,则会安装失败报错: 集群架构选择ARM,在X86节点上安装本地集群,则会安装失败报错。 解决方案:集群节点CPU架构暂不支持异构混部,请确认集群架构与安装部署本地集群节点的cpu架构一致。 若集群架构选择X86,请选择X86节点上安装本地集群。 若集群架
metadata: labels: app: gpu-app spec: containers: - name: container-1 image: <your_image_address> # 请替换为您的镜像地址
GPU调度 GPU调度概述 准备GPU资源 创建GPU应用 监控GPU资源 父主题: 管理本地集群
tes元数据,并将其以压缩包的形式保存到本地,从而实现集群中应用的备份。具体请参见应用备份。 应用迁移 在这个阶段,您将利用备份数据恢复的方法,将本地IDC集群中的应用迁移到UCS华为云集群或本地集群。具体请参见应用迁移。 父主题: 本地IDC集群迁移上云
15-r7及以上、本地集群1.28及以上 操作系统 华为云欧拉操作系统 2.0 系统架构 X86 GPU类型 T4、V100 驱动版本 GPU虚拟化功能仅支持470.57.02、510.47.03、535.54.03、535.216.03版本的GPU驱动。 容器运行时 containerd
NPU调度 NPU调度概述 NPU节点标签 创建NPU应用 父主题: 管理本地集群
云下、云上网络打通后,建议从本地数据中心服务器ping目标VPC下的华为云服务器私网IP,以验证网络是否成功连接。 购买终端节点(VPCEP) 登录UCS控制台,单击待接入集群栏的“点击接入”进入集群接入界面,单击“私网接入”。 查看“创建终端节点”中的服务名称,单击,记录服务名称。 图1 创建终端节点
监控GPU资源 本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。 前提条件 完成GPU资源准备。 当前本地集群已创建GPU资源。 当前本地集群开启了监控能力。 GPU监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择对应的集群并开启监控,详细操作请参照集群开启监控。
安装本地集群的业务规划 基础软件规划 数据规划 父主题: 本地集群
本地集群 本地集群概述 安装本地集群的业务规划 注册本地集群 安装本地集群 管理本地集群 父主题: UCS集群
NPU调度概述 UCS本地集群管理支持NPU异构资源调度能力。 可实现快速高效地处理推理和图像识别等工作。 NPU调度可以指定Pod申请NPU的数量,为工作负载提供NPU资源。 父主题: NPU调度
基础软件规划 本地集群节点的操作系统、内核版本等基础软件规划需要符合表1中的要求。 表1 基础软件规划 系统架构 系统类型 网络模型 操作系统版本 内核版本限制 x86 Ubuntu 22.04 Cilium 检查命令: cat /etc/lsb-release DISTRIB_DESCRIPTION="Ubuntu
创建NPU节点后,安装huawei-npu插件,需要给节点添加标签“accelerator/huawei-npu”,标签值可为空。 添加NPU节点标签 依次单击“本地集群>节点管理>选择节点>标签与污点管理”。 选择NPU节点,添加标签“accelerator/huawei-npu”,标签值可为空。 图1
GPU调度概述 工作负载支持使用节点GPU资源,GPU资源使用可以分为如下两种模式: GPU静态分配(共享/独享):按比例给Pod分配GPU显卡资源,支持独享(分配单张/多张显卡)和共享(部分显卡)方式。 GPU虚拟化:UCS On Premises GPU采用xGPU虚拟化技术
本地集群 本地集群接入失败怎么办? 如何手动清理本地集群节点? 如何进行Cgroup降级? 虚拟机SSH连接超时怎么办? 本地集群如何扩容容器智能分析插件的存储磁盘? Master节点关机后集群控制台不可用怎么办? 节点扩容规格后未就绪怎么办? 如何更新本地集群ca/tls证书?
为本地集群开启监控 本章节讲述为本地集群开启监控的操作流程。 前提条件 已将本地集群注册到UCS中,具体操作请参见本地集群概述。 准备网络环境 本地集群的数据接入方式支持公网接入和私网接入。 公网接入是通过公网Internet接入,要求集群能够访问公网,具有弹性灵活、成本低、易接
本地集群如何扩容容器智能分析插件的存储磁盘? 问题描述 当容器智能分析插件(kube-prometheus-stack)所依赖的PVC存储中的磁盘写满时,prometheus-server-0 Pod的日志标准输出会出现“no space left on device”报错,此时
please wait ... Start to handle images tasks, please wait ... Images(38) migration finished, 0 images tasks failed, 0 tasks generate failed 示例如下:
问题描述 UCS容器智能分析页面,为附着集群/本地集群开启监控时,报错:helm install failed: rendered manifests contain a resource that already exists. 原因分析 当前附着集群/本地集群中已经存在自建prometheus插件。
您即将访问非华为云网站,请注意账号财产安全