检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
com。注意每个Region的地址不同,请切换到对应Region获取。如果为“registry/namespace”形式,还要将namespace替换为SWR的组织名称。 username:(可选)用户名,values可以填写具体取值,也可以使用“${env}”或者“$env”类型的字符串引用环境变量。
Admit)。满足以下两个条件时,Kubelet准入该Pod: 待启动Pod Request与运行的在线作业Request之和 < 节点Allocatable 待启动Pod Request与运行的在/离线作业Request之和 < 节点Allocatable + 节点超卖资源 支持超卖和混部分离
基础配置 实例名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 由小写字母、数字、中划线组成,24个字符以内,开头为小写字母开头,结尾为小写字母或数字 无 支持初始化时配置,不支持后续修改 - 模板实例名称 命名空间 参数名 取值范围 默认值 是否允许修改 作用范围
在集群中安装3.9.5及以上版本的云原生监控插件,且部署模式需选择“本地数据存储”。 采集GPU指标 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“配置项与密钥”。 切换至“monitoring”命名空间,在“配置项”页签找到user-adapter-config配置项,并单击“更新”。
如何查看虚拟私有云VPC的网段? 在“虚拟私有云”页面,可查看虚拟私有云的“名称/ID”和“VPC网段”。用户可以调整已创建的VPC或通过重新创建VPC调整网段。 图1 查看VPC网段 父主题: 网络规划
器网卡)。由于容器场景下Pod的极速弹性与慢速的容器网卡创建绑定的差异,严重影响了大规模批创场景下的容器启动速度。因此,云原生2.0网络提供了容器网卡动态预热的能力,在尽可能提高IP的资源利用率的前提下,尽可能加快Pod的启动速度。 约束与限制 CCE Turbo的1.19.16-r4、1
开启后可以在“自定义密钥”中选择您创建的自定义KMS密钥或默认密钥。 参考购买Standard/Turbo集群填写其他配置,并完成后续集群创建步骤。 集群创建成功后,单击集群名称进入集群,在“配置中心”页面的“集群配置”版块中可以看到Secret落盘加密特性已开启。 使用自动轮转密钥开启Secret落盘加密 您可以
同时设置多条自定义亲和策略时,需要保证集群中存在同时满足所有亲和策略的节点,否则插件实例将无法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment
配置组调度策略 安装Volcano后,您可通过“配置中心 > 调度配置”选择开启或关闭Gang调度能力,默认开启。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“配置中心”,在右侧选择“调度配置”页签。 在“AI任务性能增强调度”配置中,选择是否开启“组调度 (Gang) ”。
max-worker-connections。 调优网关超时时间 nginx与upstream pod建立TCP连接并进行通信,其中涉及3个超时配置。 proxy-connect-timeout:设置 nginx 与 upstream pod 连接建立的超时时间,ingress nginx
同时设置多条自定义亲和策略时,需要保证集群中存在同时满足所有亲和策略的节点,否则插件实例将无法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment
API版本,固定值“v3”,该值不可修改。 metadata AddonMetadata object 基本信息,为集合类的元素类型,包含一组由不同名称定义的属性 spec InstanceSpec object spec是集合类的元素类型,内容为插件实例具体信息,实例的详细描述主体部分都在spec中给出
集群升级过程中,如果同时升级插件,在集群资源使用率较高的情况下可能会导致插件Pod抢占业务Pod资源,业务Pod被驱逐重建,插件升级完成后将自动恢复。 约束与限制 集群升级出现异常时,集群可通过备份数据进行回滚。若您在升级成功之后对集群进行了其它操作(例如变更集群规格),将无法再通过备份数据回滚。
如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 单个GPU卡最多虚拟化成20个GPU虚拟设备。 init容器不支持使用GPU虚拟化资源。 GPU虚拟化支持显存隔离、显存与算力隔离两种隔离模式。单个GPU卡仅支持调度同一种隔离模式的工作负载。 v1
插件Deployment实例强制调度到不同可用区的节点上,如集群下节点不满足多可用区,插件实例将无法全部运行。若multiAZEnable与multiAZBalance配置也同时为true,则以multiAZBalance为准使用多可用部署均分模式。 multiAZBalance
需要获取如下云服务资源的权限。 图1 云容器引擎与其他服务的关系示意图 云容器引擎与其他服务的关系 表1 云容器引擎与其他服务的关系 服务名称 云容器引擎与其他服务的关系 主要交互功能 弹性云服务器 ECS 在云容器引擎中具有多个云硬盘的一台弹性云服务器就是一个节点,您可以在创建节点时指定弹性云服务器的规格。
个节点上。本文介绍如何开启节点故障检测能力。 前提条件 集群中已安装CCE节点故障检测插件。 开启节点故障检测 登录CCE控制台,单击集群名称进入集群。 在左侧选择“节点管理”,切换至“节点”页签,检查集群中是否已安装npd插件,或将其升级至最新版本。npd安装成功后,可正常使用故障检测策略功能。
Volcano提供基于真实负载调度的能力,在资源满足的情况下,Pod优先被调度至真实负载低的节点,集群各节点负载趋于均衡。 随着集群状态,工作负载流量与请求的动态变化,节点的利用率也在实时变化,为防止Pod调度完成后,集群再次出现负载极端不均衡的情况下,Volcano同时提供重调度能力,通过
eployment、StatefulSet等)外的自定义工作负载,可通过自定义资源CRD进行创建。 节点缩容策略 表1 节点缩容策略配置 名称 说明 默认值 缩容并发数 最多支持多少个空闲节点同时缩容。 缩容并发数只针对完全空闲节点,完全空闲节点可实现并发缩容。非完全空闲节点则只能逐个缩容。
检查节点池状态是否正常。 检查升级后节点池操作系统或容器运行时是否支持。 解决方案 问题场景:节点池状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面查看问题节点池状态。若该节点池状态处于伸缩中,请等待节点池伸缩完毕。 图1 查看节点池状态 问题场景:节点池操作系统不支持