检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
步骤一:纳管并标记GPU节点 如果您的集群中已有符合基础规划的GPU节点,您可以跳过此步骤。 在集群中纳管支持GPU虚拟化的节点,具体操作步骤请参见纳管节点。 纳管成功后,给对应支持GPU虚拟化节点打上“accelerator: nvidia-{显卡型号}”标签,具体操作步骤请参见为节点添加标签/污点。
建议配置方法: 节点的实际可用分配内存量 ≥ 当前节点所有容器内存限制值之和 ≥ 当前节点所有容器内存申请值之和,节点的实际可用分配内存量请在“集群管理”中对应集群的“节点管理”页面下查看。 可分配资源:可分配量按照实例请求值(request)计算,表示实例在该节点上可请求的资源上限,不代表节点实际可用资源。
问题原因:选择的集群架构和安装部署本地集群节点的cpu架构不一致。 例如: 集群架构选择X86,在ARM节点上安装本地集群,则会安装失败报错: 集群架构选择ARM,在X86节点上安装本地集群,则会安装失败报错。 解决方案:集群节点CPU架构暂不支持异构混部,请确认集群架构与安装部署本地集群节点的cpu架构一致。
守护进程集 守护进程集(DaemonSet)保证集群下全部(或某些)节点上均运行一个Pod,新节点添加到集群内也会自动部署Pod,有节点从集群移除时,该节点上的Pod也会被回收。适用于常驻集群的后台程序,如日志采集等。删除DaemonSet将会删除它创建的所有Pod。 创建守护进程集
通 节点检查 节点语言检查 节点语言设置必须符合约束 节点语言设置符合en_US.UTF-8、en_GB.UTF-8任何一种 节点操作系统检查 节点操作系统必须符合约束 节点操作系统为Ubuntu 22.04、Redhat 8.6、HCE 2.0任何一种 系统命令检查 节点具备基础命令行工具
UCS服务管理费用不包括任何资源(例如计算节点、网络服务等)相关的费用。 假设您计划在UCS服务中添加一个华为云集群。在注册集群的页面底部,您将看到按需计费模式下的所需费用,如图 配置费用示例所示。 图1 配置费用示例 按需计费模式按照华为云UCS服务实际使用量与使用时长计费,具体计费周期为按小时计费。
百万级节点算力协同 华为云UCS基于华为云贡献至CNCF的多集群管理项目Karmada,通过多云管理平台能力,可支持上千个Kubernetes分布式集群的统一接入,同时最高可支持百万级节点资源协同调度,实现应用在分布式云场景下的跨云跨集群的弹性伸缩,应用故障时的跨云迁移,可根
上面这个例子中,对于节点排序优先级如下所示,有个两个标签的节点排序最高,只有SSD标签的节点排序第二(权重为80),只有gpu=true的节点排序第三,没有的节点排序最低。 图1 优先级排序顺序 这里您看到Pod并没有调度到192.168.0.94这个节点上,这是因为这个节点上部署了很多
容器洞察概述 容器洞察提供基于Kubernetes原生类型的容器监控能力,全面监控集群的健康状态和负荷程度。 支持集群、节点、工作负载的资源全景。 支持节点的资源占用、工作负载的资源消耗。 展示近一小时的CPU/内存指标。 父主题: 容器洞察
5个 1个 1个 4个 6块 表2 EC2资源规格 节点类型 数量 CPU (Cores) Mem (GiB) root盘 非root盘 备注 集群管理节点 3 8 32 100 200 t3.2xlarge型号 集群计算节点 按需 8 32 100 200 数量按需可扩展 表3
vpcID 是 String 虚拟私有云id,必须位于上述项目中 subnetID 是 String 子网的网络id,必须位于上述虚拟私有云中 响应参数 状态码: 201 表4 响应Body参数 参数 参数类型 描述 id String vpcep终端节点的id 请求示例 创建联邦网络连接
与已有的重复。 容忍策略:当工作负载实例所在的节点不可用时,系统将实例重新调度到其它可用节点的时间窗,默认为300秒。 容忍策略与节点的污点能力配合使用,允许(不强制)负载调度到带有与之匹配的污点的节点上,也可用于控制负载所在的节点被标记污点后负载的驱逐策略,详细内容请参考示例教程。
户也可以选择分批次部分升级节点,此时需要手动选择节点。 ./ucs-ctl upgrade node -n [node ip] -c [cluster name] 特殊情况:若本地集群目前只有master节点,无node节点,此时仅提供master节点的升级命令。 其他可配置的flag请参照node节点升级命令说明。
监控风险安全 容器洞察提供基于Kubernetes原生类型的容器监控能力,全面监控集群的健康状态和负荷程度。 支持集群、节点、工作负载的资源全景。 支持节点的资源占用、工作负载的资源消耗。 展示近一小时的CPU/内存指标。 关于UCS监控风险安全的详细介绍,请参见容器洞察章节。 父主题:
基础软件规划 节点的操作系统、内核版本等基础软件需要符合表1中的版本要求。 表1 基础软件规划 系统架构 系统类型 网络模型支持 操作系统版本 内核版本限制 x86 Ubuntu 20.04 Cilium 检查命令:cat /etc/lsb-release DISTRIB_DESCRIPTION="Ubuntu
”。 若在NPU驱动安装完成前就重启了节点,可能导致驱动安装失败,节点重启后集群“节点管理”页面对应的节点会显示“昇腾驱动未就绪”。此时需要先卸载该节点上的NPU驱动,再重启节点,才能重新安装NPU驱动,按上述步骤确认驱动安装完成后再重启节点。 父主题: 插件管理
器监控能力,支持集群、节点、工作负载的资源全景,支持节点的资源占用、工作负载的资源消耗,以及近一小时的CPU/内存指标展示,全面监控集群的健康状态和负荷程度。 健康诊断:对集群健康状态进行周期性检查,可以对集群、节点资源使用情况,工作负载、Pod资源状态进行快速诊断。 仪表盘:仪
为集群创建应用实例,支持华为云、边缘节点、分布式云的多场景部署。 本小节将指导您如何使用UCS快速部署一个CockroachDB应用至集群。 前提条件 您需要在UCS中添加一个1.19版本以上的Kubernetes集群,并且集群中至少拥有一个可用节点。 订阅服务 登录UCS控制台
上面这个例子中,对于节点排序优先级如下所示,有个两个标签的节点排序最高,只有SSD标签的节点排序第二(权重为80),只有gpu=true的节点排序第三,没有的节点排序最低。 图1 优先级排序顺序 这里您看到Pod并没有调度到192.168.0.94这个节点上,这是因为这个节点上部署了很多
集群总览”页面的集群统计列表中,单击集群名称跳转至单个集群的智能分析页面。本页面分为五个页签,分别为: “集群”页签:具体信息请参见查看集群详情。 “节点”页签:具体信息请参见查看集群内节点详情。 “工作负载”页签:具体信息请参见查看集群内工作负载详情。 “Pod”页签:具体信息请参见查看集群内Pod详情。