检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU虚拟化 GPU虚拟化概述 准备GPU虚拟化资源 使用GPU虚拟化 兼容Kubernetes默认GPU调度模式 父主题: GPU调度
使用GPU虚拟化后,不支持使用Autoscaler插件自动扩缩容GPU虚拟化节点。 XGPU服务的隔离功能不支持以UVM的方式申请显存,即调用CUDA API cudaMallocManaged(),更多信息,请参见NVIDIA官方文档。
XGPU服务的隔离功能不支持以UVM的方式申请显存,即调用CUDA API cudaMallocManaged(),更多信息,请参见NVIDIA官方文档。请使用其他方式申请显存,例如调用cudaMalloc()等。
准备GPU虚拟化资源 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。本文介绍如何在GPU节点上实现GPU的调度和隔离能力。
如何查看虚拟私有云VPC的网段? 在“虚拟私有云”页面,可查看虚拟私有云的“名称/ID”和“VPC网段”。用户可以调整已创建的VPC或通过重新创建VPC调整网段。 图1 查看VPC网段 父主题: 网络规划
API概览 云容器引擎所提供的接口分为CCE接口与Kubernetes原生接口。通过配合使用CCE接口和Kubernetes原生接口,您可以完整的使用云容器引擎的所有功能,包括创建集群和节点,使用Kubernetes接口创建容器工作负载,使用CCE接口监控工作负载的使用数据等。
参考准备GPU虚拟化资源,选择满足GPU虚拟化要求的驱动,并开启支持GPU虚拟化。 图1 异构资源配置 单击“确认配置”进行保存。 步骤三:创建GPU虚拟化负载并扩容 参考使用GPU虚拟化章节,创建使用GPU虚拟化资源的无状态负载,并将GPU申请量设为大于集群现有GPU资源上限。
EulerOS 2.9内核缺陷导致虚拟机卡住 故障现象 EulerOS 2.9节点上,由于内核存在调度相关的社区问题,有低概率会触发死锁,表现为虚拟机卡住。
谨慎调整VPC和虚拟机的DNS配置 CoreDNS启动时会默认从部署的实例上获取resolve.conf中的DNS配置,作为上游的解析服务器地址,并且在CoreDNS重启之前不会再重新加载节点上的resolve.conf配置。
方法2:通过虚拟私有云服务的API接口查询。 配置建议: VPC在集群创建后无法修改,请对VPC下IP资源是否充足、是否计划与其他集群以及非容器业务共用VPC等因素进行评估,选择合适的VPC 控制节点子网 集群下控制节点使用的子网。
创建gpu-app.yaml文件,示例如下: apiVersion: apps/v1 kind: Deployment metadata: name: gpu-app namespace: default spec: replicas: 1 selector:
如图1,同一个region下可以有多个虚拟私有云(图中以VPC表示)。虚拟私有云由一个个子网组成,子网与子网之间的网络交互通过子网网关完成,而集群就是建立在某个子网中。因此,存在以下三种场景: 不同集群可以创建在不同的虚拟私有云中。 不同集群可以创建在同一个子网中。
内部访问:包括集群内访问(通过集群虚拟IP)和节点访问(通过节点私有IP)两种方式。
如从控制台创建NPU节点,控制台会自动补充NPU驱动(用户无法指定版本和类型)安装命令,并在安装完成后自动重启节点;如通过API或其他方式创建节点则需要用户在“安装后执行脚本”中添加驱动安装命令。
如何获取接口URI中参数 项目ID(project_id) project_id即项目ID,可以通过控制台或API接口获取,具体请参见获取项目ID。 集群ID(cluster_id) 登录CCE控制台,在左侧导航栏中选择“集群管理”。
为什么登录虚拟机VNC界面会间歇性出现Dead loop on virtual device gw_11cbf51a, fix it urgently?
在虚拟私有云控制台,单击右上角的“创建虚拟私有云”,按照提示完成创建。 创建完成后返回虚拟私有云列表,单击创建的VPC名称,在详情页获取VPC的ID,后续创建集群时需要使用。 图1 获取VPC的ID 创建子网 登录管理控制台,选择“网络 > 虚拟私有云 VPC”。
集群各网段基本概念 VPC网段 虚拟私有云(Virtual Private Cloud,简称VPC)可以为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境。
当前虚拟化域侧并没有提供特定的接口来检查XGPU的健康情况,所以根据XGPU设备所在物理GPU设备的健康情况反推。0表示XGPU设备为健康状态,1表示为非健康状态。 父主题: 仪表盘
设置资源配额及限制 Kubernetes在一个物理集群上提供了多个虚拟集群,这些虚拟集群被称为命名空间。