检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本文介绍如何使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 init容器不支持进行GPU虚拟化。 对于单张GPU卡:
单张/多张显卡)和共享(部分显卡)方式。 GPU虚拟化:UCS On Premises GPU采用xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以
集群,每天仅支持配置一个定时巡检时间。 图5 定时巡检设置 也可按照查看巡检详情指导进入单集群巡检详情页面。 发起诊断 按照查看巡检详情指导进入单集群巡检页面。 在下方“巡检集群”中选择未巡检集群,单击“马上诊断”。 集群将开始执行诊断。诊断结束后,页面将自动刷新并展示诊断结果,其中无风险项将自动隐藏。
Kubernetes软件以及接入UCS的过程完全交给华为云来处理。 本地集群兼容多种底层基础设施,支持部署在裸金属服务器和VMware等虚拟化Iaas上,支持容器网络与底层网络打通,支持利用CSI对接多种底层存储服务(如VMware Vsphere等),提供持久化存储能力。 本地集群管理流程如图1
以跳过此步骤。 在集群中纳管支持GPU虚拟化的节点,具体操作步骤请参见纳管节点。 纳管成功后,给对应支持GPU虚拟化节点打上“accelerator: nvidia-{显卡型号}”标签,具体操作步骤请参见为节点添加标签/污点。 图1 为虚拟化节点打标签 步骤二:安装插件 如果您的
04,建议使用470及以上版本驱动。 图1 安装gpu-device-plugin GPU虚拟化:选择开启GPU虚拟化,支持GPU单卡的算力、显存分割与隔离。 若集群中未安装volcano插件,将不支持开启GPU虚拟化,您可单击“一键安装”进行安装。如需配置volcano插件参数,请单击“自定义安装”,详情请参见volcano。
可视化监控洞察,运维更简单 支持立体化监控运维,并且兼容开源Prometheus和OpenTelemetry生态,拥有灵活的Dashboard,支持智能巡检、容器洞察、服务网格洞察。 算力统一调度,部署最优,运行最佳 基于Karmada内核,UCS可完成上千个分布式集群的统一接入,实现百万节点
制,便于多云多集群的合规性审计。UCS还提供按“应用->Region->集群->资源粒度”进行监控运维,以及灵活的Dashboard、智能巡检、容器洞察等多云运维监控能力。 百万级节点算力协同 华为云UCS基于华为云贡献至CNCF的多集群管理项目Karmada,通过多云管理平台能
若您的集群使用了云硬盘或文件存储,跨区域迁移可以使用云备份 CBR。CBR为云上的弹性云服务器、裸金属服务器、云硬盘、文件存储、云下VMware虚拟化环境和本地文件目录,提供简单易用的备份服务,当发生病毒入侵、人为误删除等事件时,可将数据恢复到任意备份点。 具体请参见创建云硬盘备份或创建SFS
署云原生应用和服务。 Cilium的eBPF 技术通过在Linux内核层面实时监控网络流量,实现了高效的安全数据包交换。该技术在网络功能虚拟化、容器网络和边缘计算等场景中都有广泛应用,能够帮助企业提升网络性能和安全性,为云原生应用提供更好的基础设施支持。 基本功能 为容器提供网络
的频率和稳定性。 升级最大时长(progressDeadlineSeconds) 指定系统在报告 Deployment 进展失败 之前等待 Deployment 取得进展的秒数。 这类报告会在资源状态中体现为 Type=Progressing、Status=False、 Reas
的频率和稳定性。 升级最大时长(progressDeadlineSeconds) 指定系统在报告 Deployment 进展失败 之前等待 Deployment 取得进展的秒数。 这类报告会在资源状态中体现为 Type=Progressing、Status=False、 Reas
效。 策略实例分发成功后可在集群中执行符合策略实例的动作,此时该动作可正常执行;若在集群中执行不符合策略实例的动作,该动作将被拒绝掉或者上报告警事件。 修改/删除策略实例 作为平台工程师,您通常需要定期审视和更新策略实例,或者删除一些不再使用的策略实例。要执行这些操作,请参考以下步骤:
虚拟机SSH连接超时怎么办? 由于部分虚拟机性能不满足使用需求,偶尔会出现SSH连接超时现象,此时可以通过修改虚拟机SSH配置来解决问题。 执行以下命令: vim /etc/ssh/sshd_config 按“i”进入编辑模式。 将useDNS的值设置为no。 按“ESC”,并输入:wq
本地集群使用云专线/VPN上报日志 步骤一:云日志服务VPC终端节点授权 在导航栏单击“工单>新建工单”。 在“我遇到的问题所属产品/服务”的输入框中输入LTS,单击“搜索” 问题类型选择“其他问题”,新建工单。 输入问题描述,选择联系方式,并提交。 问题描述内容建议:云日志服务
约束与限制 本小节主要为您介绍华为云UCS使用过程中的一些限制。 Kubernetes版本约束 接入UCS服务的Kubernetes集群版本必须在1.19至1.28之间。 区域限制 集群通过私网接入UCS时,需要通过云专线(DC)或虚拟专用网络(VPN)服务将云下网络与云上虚拟私
跨region集群打通方法 以北京四、广州region为例,进行跨region集群引入网格,其中北京四为网格控制面所在region。 网段约束 各集群所在的VPC网段不能冲突。 各集群所设置的容器网段不能冲突。 CCE网络插件实现会在路由表中添加路由,为了防止路由冲突造成网络无法
开启多集群健康监控 您可以使用UCS的容器智能分析能力为集群开启监控,以实时监控与守护集群的健康状态。 本小节将指导您如何快速为附着集群开启监控。 前提条件 准备一个云上虚拟私有云(VPC),并将集群的第三方云厂商网络环境与该VPC连通,具体可以选用如下两种方案: 虚拟专用网络(
注册伙伴云集群(私网接入) 私网连接方式是通过云专线(DC)或虚拟专用网络(VPN)服务将云下网络与云上虚拟私有云(VPC)连通,并利用VPC终端节点通过内网与UCS服务建立连接,具有高速、低时延、安全的优势。 约束与限制 仅华为云账号或具备UCS FullAccess权限的用户可进行集群注册的操作。
注册附着集群(私网接入) 位于本地数据中心和第三方云上的附着集群通过公网接入UCS存在一定的安全风险,用户需要稳定安全的集群接入方式,此时可以使用私网接入的方式将集群纳入UCS进行管理。 私网连接方式是通过云专线(DC)或虚拟专用网络(VPN)服务将云下网络与云上虚拟私有云(VP