检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
步骤一:纳管并标记GPU节点 如果您的集群中已有符合基础规划的GPU节点,您可以跳过此步骤。 在集群中纳管支持GPU虚拟化的节点,具体操作步骤请参见纳管节点。 纳管成功后,给对应支持GPU虚拟化节点打上“accelerator: nvidia-{显卡型号}”标签,具体操作步骤请参见为节点添加标签/污点。
集群创建应用实例,支持华为云、边缘节点、分布式云的多场景部署。 本小节将指导您如何使用UCS快速部署一个CockroachDB应用至集群。 前提条件 您需要在UCS中添加一个1.19版本以上的Kubernetes集群,并且集群中至少拥有一个可用节点。 订阅服务 登录UCS控制台,在左侧导航栏中单击“云原生服务中心”。
GPU调度概述 工作负载支持使用节点GPU资源,GPU资源使用可以分为如下两种模式: GPU静态分配(共享/独享):按比例给Pod分配GPU显卡资源,支持独享(分配单张/多张显卡)和共享(部分显卡)方式。 GPU虚拟化:UCS On Premises GPU采用xGPU虚拟化技术
本地集群配置文件 本地集群配置文件为一个Cluster.yaml文件,是在UCS 控制台中自动生成,用于初始化本地集群的master节点。表1是该文件内各个字段的说明。 表1 命令 配置项 配置命令 # ssh登录master节点用户 USERNAME: root # ssh登录master节点密码
上面这个例子中,对于节点排序优先级如下所示,有个两个标签的节点排序最高,只有SSD标签的节点排序第二(权重为80),只有gpu=true的节点排序第三,没有的节点排序最低。 图1 优先级排序顺序 这里您看到Pod并没有调度到192.168.0.94这个节点上,这是因为这个节点上部署了很多
户也可以选择分批次部分升级节点,此时需要手动选择节点。 ./ucs-ctl upgrade node -n [node ip] -c [cluster name] 特殊情况:若本地集群目前只有master节点,无node节点,此时仅提供master节点的升级命令。 其他可配置的flag请参照node节点升级命令说明。
若查询到etcd容器说明服务已经重启,此时该节点的etcd数据得到恢复。 etcd数据恢复需要每个含有etcd的节点上单独执行1-5步骤。 单master节点故障恢复 在执行机上执行单节点故障恢复命令。 ./ucs-ctl restore node 节点ip --name 集群名 其中节点ip为故障节点的ip,示例如下。
容器洞察概述 容器洞察提供基于Kubernetes原生类型的容器监控能力,全面监控集群的健康状态和负荷程度。 支持集群、节点、工作负载的资源全景。 支持节点的资源占用、工作负载的资源消耗。 展示近一小时的CPU/内存指标。 父主题: 容器洞察
} 响应示例 状态码: 201 请求创建的终端节点,连接到联邦apiserver { "id" : "b8c9c1dc-b10f-4644-bc5f-e557efa63782s" } 状态码 状态码 描述 201 请求创建的终端节点,连接到联邦apiserver 错误码 请参见错误码。
基础软件规划 节点的操作系统、内核版本等基础软件需要符合表1中的版本要求。 表1 基础软件规划 系统架构 系统类型 网络模型支持 操作系统版本 内核版本限制 x86 Ubuntu 20.04 Cilium 检查命令:cat /etc/lsb-release DISTRIB_DESCRIPTION="Ubuntu
监控风险安全 容器洞察提供基于Kubernetes原生类型的容器监控能力,支持集群、节点、工作负载的资源全景,支持节点的资源占用、工作负载的资源消耗,以及近一小时的CPU/内存指标展示,全面监控集群的健康状态和负荷程度。 关于UCS监控风险安全的详细介绍,请参见容器洞察章节。 父主题:
上面这个例子中,对于节点排序优先级如下所示,有个两个标签的节点排序最高,只有SSD标签的节点排序第二(权重为80),只有gpu=true的节点排序第三,没有的节点排序最低。 图1 优先级排序顺序 这里您看到Pod并没有调度到192.168.0.94这个节点上,这是因为这个节点上部署了很多
”。 若在NPU驱动安装完成前就重启了节点,可能导致驱动安装失败,节点重启后集群“节点管理”页面对应的节点会显示“昇腾驱动未就绪”。此时需要先卸载该节点上的NPU驱动,再重启节点,才能重新安装NPU驱动,按上述步骤确认驱动安装完成后再重启节点。 父主题: 插件管理
ucsctl执行机 源设备所在节点IP ALL 所有节点 目的设备所在节点IP 22 TCP SSH 否 证书/用户名密码 TLS v1.2 所有节点 源设备所在节点IP ALL NTP server 目的设备所在节点IP 123 UDP ntp 否 无 无 所有节点 源设备所在节点IP ALL DNS
词条 词条简介 节点概览 节点概况展示了节点的名称、当前运行状态、CPU/内存的使用率、所属集群、节点IP地址以及节点所在地区,且单击上方搜索框,选择属性类型,再输入对应的关键字,即可查询该条件下的节点。 节点风险概览 节点风险概览统计该舰队内已开启监控的集群节点发生的K8s W
集群总览”页面的集群统计列表中,单击集群名称跳转至单个集群的智能分析页面。本页面分为五个页签,分别为: “集群”页签:具体信息请参见查看集群详情。 “节点”页签:具体信息请参见查看集群内节点详情。 “工作负载”页签:具体信息请参见查看集群内工作负载详情。 “Pod”页签:具体信息请参见查看集群内Pod详情。
建议配置方法: 节点的实际可用分配内存量 ≥ 当前节点所有容器内存限制值之和 ≥ 当前节点所有容器内存申请值之和,节点的实际可用分配内存量请在“集群管理”中对应集群的“节点管理”页面下查看。 可分配资源:可分配量按照实例请求值(request)计算,表示实例在该节点上可请求的资源上限,不代表节点实际可用资源。
创建联邦网络连接并下载联邦kubeconfig 功能介绍 舰队开通联邦后,调用此接口,创建vpcep终端节点,连接到联邦apiserver,并下载联邦apiserver的kubeconfig URI POST /v1/clustergroups/{clustergroupid}/cert
如图1,现需要将集群下podinfo服务的访问类型由“集群内访问”改为“节点访问”,将其端口暴露到现网,具体操作如下: 图1 服务列表 进入配置集合源代码仓库,根据根据配置集合仓库源信息,找到并打开podinfo/kustomize路径下的service.yaml文件,单击,将“type: ClusterIP”修改为“type:
容器洞察:提供基于Kubernetes原生类型的容器监控能力,支持集群、节点、工作负载的资源全景,支持节点的资源占用、工作负载的资源消耗,以及近一小时的CPU/内存指标展示,全面监控集群的健康状态和负荷程度。 健康诊断:对集群健康状态进行周期性检查,可以对集群、节点资源使用情况,工作负载、Pod资源状态进行快速诊断。