检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建NPU应用 前提条件 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 当前不支持npu负载多容器能力。 通过控制台创建NPU应用 本节以创建无状态工作负载(Deployment)为例,说明通过控制台创建npu资源应用的方法
创建密钥 密钥(Secret)是一种用于存储工作负载所需要认证信息、密钥的敏感信息等的资源类型,内容由用户决定。资源创建完成后,可在容器工作负载中作为文件或者环境变量使用。 创建密钥 登录集群控制台,单击左侧导航栏的“配置与密钥 > 密钥”。您还可以直接创建密钥或基于YAML来创建
准备GPU资源 本文介绍如何在使用GPU能力前所需要的基础软件、硬件规划与准备工作。 基础规划 配置 支持版本 集群版本 v1.25.15-r7及以上 操作系统 华为云欧拉操作系统 2.0 系统架构 X86 GPU类型 T4、V100 驱动版本 GPU虚拟化功能仅支持470.57.02
创建GPU应用 本文介绍如何使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 init容器不支持进行GPU虚拟化。
监控GPU资源 本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。 前提条件 完成GPU资源准备。 当前本地集群已创建GPU资源。 当前本地集群开启了监控能力。 GPU监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择对应的集群并开启监控,详细操作请参照集群开启监控
本地集群配置文件 本地集群配置文件为一个Cluster.yaml文件,是在UCS 控制台中自动生成,用于初始化本地集群的master节点。表1是该文件内各个字段的说明。 表1 命令 配置项 配置命令 # ssh登录master节点用户 USERNAME: root # ssh登录master
查看集群情况 查看集群情况流程 在“容器洞察 > 集群总览”页面的集群统计列表中,单击集群名称跳转至单个集群的智能分析页面。本页面分为五个页签,分别为: “集群”页签:具体信息请参见查看集群详情。 “节点”页签:具体信息请参见查看集群内节点详情。 “工作负载”页签:具体信息请参见查看集群内工作负载详情
数据规划 防火墙规划 防火墙的规划需符合表1中要求。 表1 防火墙规划 源设备 源IP 源端口 目的设备 目的IP 目的端口(侦听) 协议 端口说明 侦听端口是否可更改 认证方式 加密方式 ucsctl执行机 源设备所在节点IP ALL 所有节点 目的设备所在节点IP 22 TCP
头域控制 开启头域控制,可以灵活增加、修改和删除指定HTTP头域,非侵入方式管理请求内容。只支持路由上的头域操作,暂不支持对于特定后端的头域操作。 YAML设置如下: apiVersion: networking.istio.io/v1beta1 kind: VirtualService
创建流量策略 YAML创建流量策略 通过YAML创建流量策略,步骤如下: 登录UCS控制台,在左侧导航栏中单击“服务网格”。 单击服务网格名称,进入详情页。 在左侧导航栏,单击“流量治理”下的“流量策略”,进入流量策略列表页。 单击右上角“YAML创建”,弹出流量策略YAML创建界面
更新流量策略 YAML更新流量策略 以检查4分钟内forecast服务实例的访问异常情况为例,连续出现5次访问异常的实例将被隔离10分钟,被隔离的实例不超过30%,在第1次隔离期满后,异常实例将重新接收流量,如果仍然不能正常工作,则会被重新隔离,第2次将被隔离20分钟,以此类推。用户可根据实际需求对参数进行更新
gpu-device-plugin 插件简介 gpu-device-plugin插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。 仅支持Nvidia Tesla驱动,不支持GRID驱动。
任务和定时任务 任务概述 任务管理对应Kubernetes中的Job,分为普通任务和定时任务。 普通任务(Job)是Kubernetes用来控制批处理型任务的资源对象。批处理业务与长期伺服业务(Deployment、StatefulSet)的主要区别是批处理业务的运行有头有尾,而长期伺服业务在用户不停止的情况下永远运行
应用备份 第三方云集群中应用的迁移包含两个步骤:应用备份和应用迁移,即备份第三方云集群中应用,然后通过数据恢复的方式迁移至目标集群。 k8clone是一个简便的Kubernetes元数据克隆工具,它可以将Kubernetes元数据(对象)保存为本地压缩包,然后将这些元数据恢复到目标集群
无状态负载 UCS集群联邦可实现多个不同区域、不同云的Kubernetes管理,支持统一的全局应用部署,可将Deployment、StatefulSet、DaemonSet等不同类型的工作负载部署到集群联邦下的集群。 在运行中始终不保存任何数据或状态的工作负载称为“无状态负载 Deployment
配置调度策略(亲和与反亲和) Kubernetes支持节点和Pod两个层级的亲和(affinity)与反亲和(anti-affinity)调度。通过配置亲和与反亲和规则,可以允许您指定硬性限制或者偏好,例如将前台Pod和后台Pod部署在一起、某类应用部署到某些特定的节点、不同应用部署到不同的节点等等
查看集群内节点情况 如果您需要监控节点的资源使用情况,可以前往容器洞察中的节点页面查看。该页面提供了指定集群下所有节点的综合信息,以及单个节点的详细监控数据,包括CPU/内存使用率、网络流入/流出速率、磁盘读/写IO等。 功能入口 登录UCS控制台。 在左侧导航栏中选择“容器智能分析
huawei-npu插件 插件简介 huawei-npu插件是支持容器里使用huawei NPU设备的管理插件。 安装本插件后,可支持使用NPU的节点,实现快速高效地处理推理和图像识别等工作。 前置条件 安装huawei-npu的节点需要添加标签“accelerator/huawei-npu
系统插件 服务运维系统插件由云原生服务中心提供,当部署的服务声明了诸如日志、监控运维能力配置时,集群中如果没有对应的运维能力插件,将会自动安装,您可通过“服务插件”页面查看各个集群中部署的运维能力插件。 背景知识 服务运维系统插件分别用于提供服务日志和监控能力。 ops-operator
守护进程集 创建守护进程集 (可选)若基于我的镜像创建工作负载,用户首先需要将镜像上传至容器镜像服务,上传镜像的方式请参见镜像管理。若基于开源镜像中心创建工作负载,则无需上传镜像。 在集群控制台选择“工作负载 > 守护进程集”,单击“镜像创建”。 参照表1设置基本信息,其中带“*”