检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
点上已挂载的1块系统盘和1块数据盘后,还可以自定义挂载4块云硬盘,可以作为额外的数据盘或者作为裸盘用于创建本地存储池。该场景下,如果集群中需要调度18个挂载1块云硬盘的工作负载实例,则该节点最多可调度14个实例,剩余4个工作负载实例会调度到其他节点,不会出现节点存储无法挂载的情况。
类型,用于存放7层负载均衡服务所需的证书 IngressTLS:CCE提供的TLS密钥类型,用于存放7层负载均衡服务所需的证书。 其他:若需要创建其他自定义类型的密钥,可手动输入密钥类型。 无 允许 - 镜像仓库凭据、负载均衡证书等常见密钥应用场景存在相应的分类,系统会对此类型密
GPU虚拟化功能仅支持470.57.02、510.47.03、535.54.03版本的GPU驱动。 运行时 仅支持containerd 插件 集群中需要同时安装以下插件: Volcano调度器插件:1.10.5及以上版本 CCE AI套件(NVIDIA GPU)插件:2.0.5及以上版本 约束与限制
请求的各种资源,如:CPU、Memory和GPU等扩展资源,并根据各种资源所配置的权重做平均。 Binpack算法原理 Binpack在对一个节点打分时,会根据Binpack插件自身权重和各资源设置的权重值综合打分。首先,对Pod请求资源中的每类资源依次打分,以CPU为例,CPU资源在待调度节点的得分信息如下:
式。 (仅v1.25以下集群需执行)创建Pod安全策略。 在v1.25以下的CCE集群中kube-apiserver开启了Pod安全策略,需要在Pod安全策略的allowedUnsafeSysctls中增加net.core.somaxconn配置才能生效。关于CCE的安全策略介绍请参见Pod安全策略配置。
点池”页签。 单击节点池名称后的“更多 > 复制”。 图1 复制节点池 在弹出的“复制节点池”窗口中,可以看到复制的节点池配置,您可以根据需要进行修改,配置项详情请参见创建节点池。确定配置后单击“下一步:规格确认”。 在“规格确认”步骤中再次确认规格并单击“提交”,即可完成节点池的复制并创建新的节点池。
户将无法进入CCE控制台。 如果您无需使用CCE控制台,只使用kubectl命令操作集群中的资源,则不受集群管理(IAM)权限的影响,您只需要获取具有命名空间权限的配置文件(kubeconfig),详情请参考如果不配置集群管理权限,是否可以使用kubectl命令呢?。集群配置文件
Standard集群添加容器网段 登录CCE控制台,单击CCE集群名称,进入集群。 在“概览”页面,找到“网络信息”版块,并单击“添加”。 图1 添加容器网段 设置需要添加的容器网段,您可单击一次性添加多个容器网段。 新增的容器网段不能与服务网段、VPC网段及已有的容器网段冲突。 图2 设置网段 单击“确定”。
该参数,尽量避免出现集群节点不可用数量过多导致Pod无法调度的情况。 节点列表:选择需要升级的节点。 登录方式: 密码 用户名默认为“root”,请输入登录节点的密码,并确认密码。 登录节点时需要使用该密码,请妥善管理密码,系统无法获取您设置的密码内容。 密钥对 选择用于登录本节点的密钥对,支持选择共享密钥。
max-min fairness算法的最大问题是认为资源是单一的,但是现实情况中资源却不是单一的,例如CPU、Memory、GPU等资源在分配时都需要考虑。这个时候DRF应运而生,简单来说DRF就是 max-min fairness 算法的泛化版本,可以支持多种类型资源的公平分配, 即每个用户的主资源满足
-name" does not exist. 在左侧导航栏中选择“服务”,在右上角单击“创建服务”,并进行以下配置。 Service名称:需要与Pod中readinessGates字段设置的名称一致。 访问类型:选择负载均衡型Service。 选择器:单击“引用负载标签”,选择上一步中创建的工作负载并单击“确定”。
如果工作负载状态为“处理中”,一般为过程中的状态,请耐心等待。 如果工作负载状态为“运行中”,一般无需处理。如果出现状态正常但无法访问的情况,则需要进一步排查集群内访问是否正常。 集群内部是否可以正常访问 您可以在CCE控制台界面或者使用kubectl命令查找Pod的IP,然后登录到集
kubernetes.io/egress-bandwidth:Pod的出口带宽 如果不设置这两个参数,则表示不限制带宽。 修改Pod出/入口带宽限速后,需要重启容器才可生效。由于独立创建的Pod(不通过工作负载管理)修改annotations后不会触发容器重启,因此带宽限制不会生效,您可以重新创建Pod或手动触发容器重启。
件指标 如果您需要通过Prometheus采集Master节点组件指标,可通过以下指导进行配置。 集群版本需要v1.19及以上。 在集群中需安装自建的Prometheus,您可参考Prometheus使用Helm模板进行安装。安装自建Prometheus后,还需要使用promet
盘加密。 禁止集群删除:防止通过控制台或API误删除集群,开启后将禁止删除或退订集群。 集群控制节点可用区 您可查看集群控制节点数量,如果需要查看控制节点资源使用率等数据,请单击右上角“查看监控”,前往监控中心页面查看。 已安装插件 您可查看集群中已安装的插件,当集群中存在可以升
对应请求消息头,响应同样也有消息头,如“Content-type”。 对于获取用户Token接口,返回如图1所示的消息头,其中“x-subject-token”就是需要获取的用户Token。有了Token之后,您就可以使用Token认证调用其他API。 图1 获取用户Token响应消息头 响应消息体 响应
创建NPU节点,控制台会自动补充NPU驱动(用户无法指定版本和类型)安装命令,并在安装完成后自动重启节点;如通过API或其他方式创建节点则需要用户在“安装后执行脚本”中添加驱动安装命令。 开启驱动选择后,NPU插件启动时将自动根据对应机型的驱动配置安装驱动,驱动维护更灵活。推荐使
Job和CronJob ConfigMap Secret Service Ingress PV、PVC和StorageClass 04 使用 根据业务发展需要,您可以随时扩容集群、变更节点规格、纳管节点、设置节点和工作负载伸缩策略或使用节点池管理。除此之外,您还可以实时查看监控指标及审计日志,以便及时了解集群和节点的健康状态。
Error,可以尝试通过以下手段恢复: 配置目标节点污点(taints),驱逐目标节点存量的业务负载。 重启目标节点。 若重启后仍有该现象,则需要收集nvidia-smi -q命令的输出,然后根据GPU设备所在的节点类型(ECS或BMS),联系对应的客服进行处理。 NVML获取设备UUID异常
固定值 取值范围: PreCheckTask spec 是 PrecheckSpec object 参数解释: spec是集合类的元素类型,您对需要升级前检查的配置信息的主体部分都在spec中给出。CCE通过spec的描述来执行检查。 约束限制: 不涉及 表3 PrecheckSpec