检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU调度概述 工作负载支持使用节点GPU资源,GPU资源使用可以分为如下两种模式: GPU静态分配(共享/独享):按比例给Pod分配GPU显卡资源,支持独享(分配单张/多张显卡)和共享(部分显卡)方式。 GPU虚拟化:UCS On Premises GPU采用xGPU虚拟化技术
步骤一:纳管并标记GPU节点 如果您的集群中已有符合基础规划的GPU节点,您可以跳过此步骤。 在集群中纳管支持GPU虚拟化的节点,具体操作步骤请参见纳管节点。 纳管成功后,给对应支持GPU虚拟化节点打上“accelerator: nvidia-{显卡型号}”标签,具体操作步骤请参见为节点添加标签/污点。
"vpcep:endpoints:*", "elb:*:get", "elb:*:list", "vpc:*:get",
问题原因:选择的集群架构和安装部署本地集群节点的cpu架构不一致。 例如: 集群架构选择X86,在ARM节点上安装本地集群,则会安装失败报错: 集群架构选择ARM,在X86节点上安装本地集群,则会安装失败报错。 解决方案:集群节点CPU架构暂不支持异构混部,请确认集群架构与安装部署本地集群节点的cpu架构一致。
LTS日志组结构化是否创建成功 节点 节点状态 节点状态是否就绪 节点状态不可调度 节点kubelet状态 节点配置 节点内存的Requset是否超过80% 节点CPU的Request是否超过80% 节点内存的Limit检查是否超过150% 节点CPU的Limit检查是否超过150% 节点资源水位诊断
可通过“服务插件 > 服务Operator”页面查看各个集群中部署的服务管理类插件。 操作场景 服务Operator是OSC管理的最大粒度实体,服务运行载体是一个Operator,当服务对应的服务实例首次安装时,容器集群中如果没有对应的服务Operator,OSC会自动安装。 O
弹性IP 安全组 网络ACL ELB 网络接口 存储卷 数量 3台 3个 1个 6个 7个 1个 3个 5个 1个 1个 4个 6块 表2 EC2资源规格 节点类型 数量 CPU (Cores) Mem (GiB) root盘 非root盘 备注 集群管理节点 3 8 32 100 200
mcs mcs-example -n demo命令查看事件,显示如下: 解决方案 问题出现的原因为创建MCS对象时配置的karmada.io/elb.projectid有误,您需要删除所创建的MCS,并重新创建配置正确的MCS。 父主题: 集群联邦
节点检查 节点语言检查 节点语言设置必须符合约束 节点语言设置符合en_US.UTF-8、en_GB.UTF-8任何一种 节点操作系统检查 节点操作系统必须符合约束 节点操作系统为Ubuntu 22.04、Redhat 8.6、HCE 2.0任何一种 系统命令检查 节点具备基础命令行工具
上面这个例子中,对于节点排序优先级如下所示,有个两个标签的节点排序最高,只有SSD标签的节点排序第二(权重为80),只有gpu=true的节点排序第三,没有的节点排序最低。 图1 优先级排序顺序 这里您看到Pod并没有调度到192.168.0.94这个节点上,这是因为这个节点上部署了很多其
镜像版本 选择需要部署的镜像版本。 更新策略 镜像更新/拉取策略。勾选“总是拉取镜像”表示每次都从镜像仓库拉取镜像;如不勾选则优先使用节点已有的镜像,如果没有这个镜像再从镜像仓库拉取。 CPU配额 申请:容器需要使用的最小CPU值,默认0.25Core。 限制:允许容器使用的C
单击按钮,设置节点标签/污点。如需执行多项操作,可多次添加,最多支持10条操作。 图2 添加标签/污点 选择“添加”或“删除”操作。 选择操作对象为“K8S标签”或“污点(Taints)”。 填写需要增加标签/污点的“键”和“值”。 如选择操作对象为“污点(Taints)”,需选择污点效果,关于污点效果说明请参见污点(Taints)说明。
Equal:设置此操作符表示准确匹配指定污点键(必填)和污点值的节点。如果不填写污点值,则表示可以与所有污点键相同的污点匹配。 Exists:设置此操作符表示匹配存在指定污点键的节点,此时容忍度不能指定污点值。若不填写污点键则可以容忍全部污点。 污点值 如果操作符的值是 Exists,则value属性可省略。
} 响应示例 状态码: 201 请求创建的终端节点,连接到联邦apiserver { "id" : "b8c9c1dc-b10f-4644-bc5f-e557efa63782s" } 状态码 状态码 描述 201 请求创建的终端节点,连接到联邦apiserver 错误码 请参见错误码。
基础软件规划 节点的操作系统、内核版本等基础软件需要符合表1中的版本要求。 表1 基础软件规划 系统架构 系统类型 网络模型支持 操作系统版本 内核版本限制 x86 Ubuntu 20.04 Cilium 检查命令:cat /etc/lsb-release DISTRIB_DESCRIPTION="Ubuntu
以下解决方案中的一种: 编辑创建失败的MCI对象,修改为未使用的监听器端口。 登录ELB控制台,删除对应端口的监听器。 若出现情况二中报错,原因为创建MCI对象时配置的karmada.io/elb.projectid有误,您需要删除所创建的MCI,并重新创建配置正确的MCI。 父主题:
字符串。 表1 资源的名称和数量 控制台 资源类型 数量 名称 EC2面板 EC2 控制节点:3 工作节点:n 控制节点:${clusterName}-cp-${random5} 工作节点:${clusterName}-md-${i}-${random5},其中${i}默认为0 安全组
若在NPU驱动安装完成前就重启了节点,可能导致驱动安装失败,节点重启后集群“节点管理”页面对应的节点会显示“昇腾驱动未就绪”。此时需要先卸载该节点上的NPU驱动,再重启节点,才能重新安装NPU驱动,按上述步骤确认驱动安装完成后再重启节点。 父主题: 插件管理
群创建应用实例,支持华为云、边缘节点、分布式云的多场景部署。 本小节将指导您如何使用UCS快速部署一个CockroachDB应用至集群。 前提条件 您需要在UCS中添加一个1.19版本以上的Kubernetes集群,并且集群中至少拥有一个可用节点。 订阅服务 登录UCS控制台,在左侧导航栏中单击“云原生服务中心”。
若查询到etcd容器说明服务已经重启,此时该节点的etcd数据得到恢复。 etcd数据恢复需要每个含有etcd的节点上单独执行1-5步骤。 单master节点故障恢复 在执行机上执行单节点故障恢复命令。 ./ucs-ctl restore node 节点ip --name 集群名 其中节点ip为故障节点的ip,示例如下。