检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单个GPU卡最多虚拟化成20个GPU虚拟设备。 init容器不支持使用GPU虚拟化资源。 GPU虚拟化支持显存隔离、显存与算力隔离两种隔离模式。单个GPU卡仅支持调度同一种隔离模式的工作负载。 v1.27及以下的集群中,使用GPU虚拟化后,不支持使用Autoscaler插件自动扩缩容GPU虚拟化节点。 XGPU
如何查看虚拟私有云VPC的网段? 在“虚拟私有云”页面,可查看虚拟私有云的“名称/ID”和“VPC网段”。用户可以调整已创建的VPC或通过重新创建VPC调整网段。 图1 查看VPC网段 父主题: 网络规划
GPU虚拟化概述 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。
准备GPU虚拟化资源 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。本文介绍如何在GPU节点上实现GPU的调度和隔离能力。 前提条件 配置 支持版本 集群版本 v1.23.8-r0、v1.25
GPU虚拟化 GPU虚拟化概述 准备GPU虚拟化资源 使用GPU虚拟化 兼容Kubernetes默认GPU调度模式 父主题: GPU调度
EulerOS 2.9内核缺陷导致虚拟机卡住 故障现象 EulerOS 2.9节点上,由于内核存在调度相关的社区问题,有低概率会触发死锁,表现为虚拟机卡住。 影响范围 x86内核版本:4.18.0-147.5.1.6.h1152.eulerosv2r9.x86_64 arm内核版本:4
在“GPU配置”中找到“节点池配置”,并选择新增的目标节点池。 参考准备GPU虚拟化资源,选择满足GPU虚拟化要求的驱动,并开启支持GPU虚拟化。 图1 异构资源配置 单击“确认配置”进行保存。 步骤三:创建GPU虚拟化负载并扩容 参考使用GPU虚拟化章节,创建使用GPU虚拟化资源的无状态负载,并将GPU申请量设为大
谨慎调整VPC和虚拟机的DNS配置 CoreDNS启动时会默认从部署的实例上获取resolve.conf中的DNS配置,作为上游的解析服务器地址,并且在CoreDNS重启之前不会再重新加载节点上的resolve.conf配置。建议: 保持集群中各个节点的resolve.conf配
中已经使用nvidia.com/gpu资源,则不会转成虚拟化GPU,依然使用整卡资源。 开启GPU虚拟化时,在工作负载中设置nvidia.com/gpu等价于开启虚拟化GPU显存隔离,可以和显存隔离模式(即设置volcano.sh/gpu-mem.128Mi资源)的工作负载共用一
资源池。 如图1,同一个region下可以有多个虚拟私有云(图中以VPC表示)。虚拟私有云由一个个子网组成,子网与子网之间的网络交互通过子网网关完成,而集群就是建立在某个子网中。因此,存在以下三种场景: 不同集群可以创建在不同的虚拟私有云中。 不同集群可以创建在同一个子网中。 不同集群可以创建在不同的子网中。
异构资源配置 GPU配置 GPU虚拟化:CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU
为什么登录虚拟机VNC界面会间歇性出现Dead loop on virtual device gw_11cbf51a, fix it urgently? 问题现象 VPC网络模式的集群,登录虚拟机出现 Dead loop on virtual device gw_11cbf51a
方法1:登录虚拟私有云服务的控制台界面,在虚拟私有云的详情页面查找VPC ID。 方法2:通过虚拟私有云服务的API接口查询。 配置建议: VPC在集群创建后无法修改,请对VPC下IP资源是否充足、是否计划与其他集群以及非容器业务共用VPC等因素进行评估,选择合适的VPC 控制节点子网
VPC网段、容器使用网段不能冲突。 集群各网段基本概念 VPC网段 虚拟私有云(Virtual Private Cloud,简称VPC)可以为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境。您可以自由配置VPC内的IP地址段、子网、安全组等子服务,也
内部访问:包括集群内访问(通过集群虚拟IP)和节点访问(通过节点私有IP)两种方式。 表1 内部访问类型说明 内部访问类型 说明 端口如何填写 集群内访问(通过集群虚拟IP) 用于“工作负载之间的互访”,例如某个后端工作负载需要和前端工作负载互访,就需要选择该类型来实现内部互访。 集群虚拟IP,即Cluster
insufficient sub-ENI quota subeni配额不足, 虚机规格不支持Turbo集群。 选择subeni配额不为0的虚拟机规格。 400 CCE.01400033 Snapshot task already exists. 集群备份任务已经存在。 等待集群备份任务结束后重试备份操作。
个 每个节点的GPU虚拟化设备数量 节点-XGPU设备显存分配量 字节 每个节点上的GPU虚拟化设备显存总量 GPU卡-XGPU设备显存使用率 百分比 每张GPU卡上的GPU虚拟化设备显存使用率 计算公式:显卡上所有XGPU设备的显存使用量之和 / 显卡显存总量 GPU卡-XGPU设备显存分配量
est配置相同 GPU虚拟化资源:显存 参数名 取值范围 默认值 是否允许修改 作用范围 volcano.sh/gpu-mem.128Mi 1-16384间整数 无 允许 - 虚拟化GPU显存资源,若配置limit和request相同,可独立配置 GPU虚拟化资源:算力 参数名 取值范围
状态码如表1所示 表1 状态码 状态码 编码 状态说明 100 Continue 继续请求。 这个临时响应用来通知客户端,它的部分请求已经被服务器接收,且仍未被拒绝。 101 Switching Protocols 切换协议。只能切换到更高级的协议。 例如,切换到HTTP的新版本协议。 201
道网络使用了VXLAN作为隧道封装协议,并使用了Open vSwitch作为后端虚拟交换机。VXLAN是一种将以太网报文封装成UDP报文进行隧道传输的协议,而Open vSwitch是一款开源的虚拟交换机软件,提供网络隔离和数据转发等功能。 容器隧道网络虽然会有少量隧道封装性能损