检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
1:显存算力隔离模式 2:默认模式,表示当前卡还没被用于GPU虚拟化设备分配。 xgpu_device_health Gauge - GPU卡 GPU虚拟化设备的健康情况。 0:表示GPU虚拟化设备为健康状态。 1:表示GPU虚拟化设备为非健康状态。 DCGM提供的GPU监控指标 表3
本。 表1 GPU驱动支持列表 GPU型号 支持集群类型 机型规格 操作系统 Huawei Cloud EulerOS 2.0(支持GPU虚拟化) Ubuntu 22.04.4 Ubuntu 22.04.3 CentOS Linux release 7.6 EulerOS release
置后的登录方式。 所选弹性云服务器挂载的系统盘、数据盘都会在纳管时被格式化,请确保信息已备份。 纳管过程中,请勿在弹性云服务器控制台对所选虚拟机做任何操作。 约束与限制 纳管节点支持ECS(弹性云服务器)节点、BMS(裸金属服务器)节点、DeH(专属主机)节点。 前提条件 待纳管的云服务器需要满足以下前提条件:
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理 GPU监控指标说明 父主题: 调度
用于创建控制节点的VPC的ID。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 获取方法如下: 方法1:登录虚拟私有云服务的控制台界面,在虚拟私有云的详情页面查找VPC ID。 方法2:通过虚拟私有云服务的API接口查询。 链接请参见查询VPC列表。 subnet String 参数解释:
集群创建完成后不支持修改。 配置集群网络参数。 参数 示例 参数说明 虚拟私有云 vpc-cce 为新建集群选择一个虚拟私有云。 若没有可选虚拟私有云,请单击“新建虚拟私有云”进行创建,完成创建后单击刷新按钮。操作步骤详情请参见创建虚拟私有云和子网。 子网 subnet-cce 选择一个子网,集群中的节点将会使用此子网中的IP。
集群创建完成后不支持修改。 配置集群网络参数。 参数 示例 参数说明 虚拟私有云 vpc-cce 为新建集群选择一个虚拟私有云。 若没有可选虚拟私有云,请单击“新建虚拟私有云”进行创建,完成创建后单击刷新按钮。操作步骤详情请参见创建虚拟私有云和子网。 子网 subnet-cce 选择一个子网,集群中的节点将会使用此子网中的IP。
网络规划 集群与虚拟私有云、子网的关系是怎样的? 如何查看虚拟私有云VPC的网段? 如何设置CCE集群中的VPC网段和子网网段? 如何设置CCE集群中的容器网段? 什么是云原生网络2.0网络模式,适用于什么场景? 什么是弹性网卡? 集群安全组规则配置 创建CCE Turbo集群时如何设置IPv6服务网段
插件版本为2.7.40及以上时,支持部署dcgm-exporter组件。dcgm-exporter组件保持社区能力,暂不支持共享模式和GPU虚拟化。 设置插件支持的“参数配置”。 表1 GPU插件参数配置 参数 参数说明 集群默认驱动 集群下全部GPU节点将使用相同的驱动,请选择合
{"subnetID":"827bb**"},{"subnetID":"bdd6b**"}] 同一VPC下非集群的子网ID。 获取方式: 登录虚拟私有云控制台,在左侧导航栏选择“虚拟私有云 > 子网”,单击子网名称,在“基本信息”页签下找到“子网ID”字段复制即可。 表5 selector字段数据结构说明
用于创建控制节点的VPC的ID。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 获取方法如下: 方法1:登录虚拟私有云服务的控制台界面,在虚拟私有云的详情页面查找VPC ID。 方法2:通过虚拟私有云服务的API接口查询。 链接请参见查询VPC列表。 subnet String 参数解释:
用于创建控制节点的VPC的ID。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 获取方法如下: 方法1:登录虚拟私有云服务的控制台界面,在虚拟私有云的详情页面查找VPC ID。 方法2:通过虚拟私有云服务的API接口查询。 链接请参见查询VPC列表。 subnet String 参数解释:
0/18(主网段)和172.1.0.0/24(扩展网段) 说明: 当VPC创建完成后,若主网段不够分配,您可以为VPC添加扩展网段,具体操作请参见为虚拟私有云添加IPv4扩展网段。添加扩展网段之后,您可以根据扩展网段创建对应子网,对应子网可以在CCE中正常使用。 子网:192.168.0.0/24、192
云硬盘基础带宽/突发带宽 (Gbps) 虚拟化类型 c6.large.2 2 4 4/1.2 40 50 2 2 1/5 KVM/QingTian虚拟化 c6.xlarge.2 4 8 8/2.4 80 50 2 3 1.5/5 KVM/QingTian虚拟化 c6.2xlarge.2 8
70系列占用更多。 若发现GPU虚拟化的可用显存远小于GPU卡的物理显存,一般是因为存在一些非GPU虚拟化发放的容器,占用了显存。 通过CCE控制台或kubectl命令,将目标节点的GPU负载排空。 执行rmmod xgpu_km,进行GPU虚拟化模块的删除。 通过CCE控制台或
16-r20,v1.21及以上形如v1.21,v1.23,详细请参考CCE集群版本号说明。 platformVersion String CCE集群平台版本号,表示集群版本(version)下的内部版本。用于跟踪某一集群版本内的迭代,集群版本内唯一,跨集群版本重新计数。platformVersion格式为:cce
0个Node节点。 网络配置 * 网络模型 支持选择“VPC网络”和“容器隧道网络”,默认即可。 * 虚拟私有云 新建集群所在的虚拟私有云。 若没有可选虚拟私有云,单击“新建虚拟私有云”进行创建,完成创建后单击刷新按钮。 * 控制节点子网 集群Master节点所在的子网。 * 容器网段
云容器引擎CCE 建议选择按需计费。 集群类型:CCE集群 集群版本:v1.25 集群规模:50节点 高可用:是 1 2.91元/小时 虚拟机节点 建议选择按需计费。 虚拟机节点类型:通用计算增强型 节点规格:4核 | 8GiB 操作系统:EulerOS 2.9 系统盘:50GiB | 通用型SSD
VPC创建一个新的节点子网。详情请参见为虚拟私有云创建新的子网。 场景二:VPC网段的IP已分配完 如果整个VPC网段中的IP已分配完,您需要扩容VPC网段,然后创建新的节点子网。 登录控制台,在服务列表中单击“虚拟私有云 VPC”,在虚拟私有云列表中找到需要扩容的VPC,单击“操作”栏中的“编辑网段”。
参考新建节点中的DNS配置还原。 节点被删除 该节点不可用 不可恢复。 重装操作系统 节点组件被删除,节点不可用 重置节点,具体请参见重置节点。 升级内核或容器平台依赖组件(如openvswitch/ipvlan/docker/containerd) 可能导致节点无法使用或网络异常 说明: 节点运行依