检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU虚拟化概述 UCS On Premises GPU采用xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户定义使用的GPU数量,提高GPU利用率。
以跳过此步骤。 在集群中纳管支持GPU虚拟化的节点,具体操作步骤请参见纳管节点。 纳管成功后,给对应支持GPU虚拟化节点打上“accelerator: nvidia-{显卡型号}”标签,具体操作步骤请参见为节点添加标签/污点。 图1 为虚拟化节点打标签 步骤二:安装插件 如果您的
PU显卡型号。 仅支持配置一致GPU使用模式,不支持混合配置虚拟化和非虚拟化模式。 使用GPU虚拟化后,该GPU节点不再支持调度使用共享GPU资源的工作负载。 通过控制台创建GPU虚拟化应用 登录UCS On Premises集群控制台。 单击集群名称进入集群,在左侧选择“工作负载”,在右上角单击“创建负载”。
监控GPU虚拟化资源 本章介绍如何在UCS控制台界面查看GPU虚拟化资源的全局监控指标。 前提条件 完成GPU虚拟化资源准备。 当前本地集群内存在节点开启GPU虚拟化能力。 当前本地集群开启了监控能力。 GPU虚拟化监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择
GPU虚拟化 GPU虚拟化概述 准备GPU虚拟化资源 创建GPU虚拟化应用 监控GPU虚拟化资源 父主题: 管理本地集群
集群,每天仅支持配置一个定时巡检时间。 图5 定时巡检设置 也可按照查看巡检详情指导进入单集群巡检详情页面。 发起诊断 按照查看巡检详情指导进入单集群巡检页面。 在下方“巡检集群”中选择未巡检集群,单击“马上诊断”。 集群将开始执行诊断。诊断结束后,页面将自动刷新并展示诊断结果,其中无风险项将自动隐藏。
Kubernetes软件以及接入UCS的过程完全交给华为云来处理。 本地集群兼容多种底层基础设施,支持部署在裸金属服务器和VMware等虚拟化Iaas上,支持容器网络与底层网络打通,支持利用CSI对接多种底层存储服务(如VMware Vsphere等),提供持久化存储能力。 本地集群管理流程如图1
本地集群KubeConfig文件 本地集群配置文件 管理本地集群节点 管理本地集群网络 升级本地集群 注销本地集群 使用ucs-ctl命令行工具管理本地集群 GPU虚拟化 NPU调度 备份与恢复 父主题: 本地集群
可视化监控洞察,运维更简单 支持立体化监控运维,并且兼容开源Prometheus和OpenTelemetry生态,拥有灵活的Dashboard,支持智能巡检、容器洞察、服务网格洞察。 算力统一调度,部署最优,运行最佳 基于Karmada内核,UCS可完成上千个分布式集群的统一接入,实现百万节点
新建节点不支持更新驱动版本。 插件卸载会自动删除已安装的GPU驱动。 GPU虚拟化:选择开启GPU虚拟化,支持GPU单卡的算力、显存分割与隔离。 若集群中未安装volcano插件,将不支持开启GPU虚拟化,您可单击“一键安装”进行安装。如需配置volcano插件参数,请单击“自定义安装”,详情请参见volcano。
制,便于多云多集群的合规性审计。UCS还提供按“应用->Region->集群->资源粒度”进行监控运维,以及灵活的Dashboard、智能巡检、容器洞察等多云运维监控能力。 百万级节点算力协同 华为云UCS基于华为云贡献至CNCF的多集群管理项目Karmada,通过多云管理平台能
若您的集群使用了云硬盘或文件存储,跨区域迁移可以使用云备份 CBR。CBR为云上的弹性云服务器、裸金属服务器、云硬盘、文件存储、云下VMware虚拟化环境和本地文件目录,提供简单易用的备份服务,当发生病毒入侵、人为误删除等事件时,可将数据恢复到任意备份点。 具体请参见创建云硬盘备份或创建SFS
署云原生应用和服务。 Cilium的eBPF 技术通过在Linux内核层面实时监控网络流量,实现了高效的安全数据包交换。该技术在网络功能虚拟化、容器网络和边缘计算等场景中都有广泛应用,能够帮助企业提升网络性能和安全性,为云原生应用提供更好的基础设施支持。 基本功能 为容器提供网络
的频率和稳定性。 升级最大时长(progressDeadlineSeconds) 指定系统在报告 Deployment 进展失败 之前等待 Deployment 取得进展的秒数。 这类报告会在资源状态中体现为 Type=Progressing、Status=False、 Reas
的频率和稳定性。 升级最大时长(progressDeadlineSeconds) 指定系统在报告 Deployment 进展失败 之前等待 Deployment 取得进展的秒数。 这类报告会在资源状态中体现为 Type=Progressing、Status=False、 Reas
效。 策略实例分发成功后可在集群中执行符合策略实例的动作,此时该动作可正常执行;若在集群中执行不符合策略实例的动作,该动作将被拒绝掉或者上报告警事件。 修改/删除策略实例 作为平台工程师,您通常需要定期审视和更新策略实例,或者删除一些不再使用的策略实例。要执行这些操作,请参考以下步骤:
虚拟机SSH连接超时怎么办? 由于部分虚拟机性能不满足使用需求,偶尔会出现SSH连接超时现象,此时可以通过修改虚拟机SSH配置来解决问题。 执行以下命令: vim /etc/ssh/sshd_config 按“i”进入编辑模式。 将useDNS的值设置为no。 按“ESC”,并输入:wq
本地集群使用云专线/VPN上报日志 步骤一:云日志服务VPC终端节点授权 在导航栏单击“工单>新建工单”。 在“我遇到的问题所属产品/服务”的输入框中输入LTS,单击“搜索” 问题类型选择“其他问题”,新建工单。 输入问题描述,选择联系方式,并提交。 问题描述内容建议:云日志服务
约束与限制 本小节主要为您介绍华为云UCS使用过程中的一些限制。 Kubernetes版本约束 接入UCS服务的Kubernetes集群版本必须在1.19至1.28之间。 区域限制 集群通过私网接入UCS时,需要通过云专线(DC)或虚拟专用网络(VPN)服务将云下网络与云上虚拟私
跨region集群打通方法 以北京四、广州region为例,进行跨region集群引入网格,其中北京四为网格控制面所在region。 网段约束 各集群所在的VPC网段不能冲突。 各集群所设置的容器网段不能冲突。 CCE网络插件实现会在路由表中添加路由,为了防止路由冲突造成网络无法