检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点生命周期控制器(node-lifecycle-controller)配置 可用区亚健康阈值 当给定区域中处于非就绪状态的节点的占比高于此值时, 会将该区域视为不健康 参数名 取值范围 默认值 是否允许修改 作用范围 unhealthy-zone-threshold 大于0小于1
工作负载异常:添加存储失败 问题现象 实例一直处于创建中,事件中存在“添加存储失败”的告警,事件信息如下所示: AttachVolume.Attach failed for volume "pvc-***" : rpc error: code = Internal desc = [***][disk
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。
节点池检查异常处理 检查项内容 检查节点池状态是否正常。 检查升级后节点池操作系统或容器运行时是否支持。 解决方案 问题场景:节点池状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面查看问题节点池状态。若该节点池状态处于伸缩中,请等待节点池伸缩完毕。 图1
节点磁盘检查异常处理 检查项内容 当前检查项包括以下内容: 检查节点关键数据盘使用量是否满足升级要求 检查/tmp目录是否存在500MB可用空间 解决方案 节点升级过程中需要使用磁盘存储升级组件包,使用/tmp目录存储临时文件。 问题场景一:Master节点磁盘使用量不满足升级要求
节点池多规格计费说明 若节点池中选择了多个规格时,控制台中显示的是节点池默认规格的价格,在节点池创建或扩缩容过程中,将以实际创建的规格进行计费。 计费样例 示例,某一按需节点池中添加了两个规格类型,其中默认规格A价格(包含云硬盘价格)为0.5735元/小时,另一规格B价格为1.0015元/小时。
扩缩容节点池 您可指定节点池中的某个规格进行扩缩容。 默认节点池不支持扩缩容,请通过创建节点添加。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 单击节点池名称后的“扩缩容”。 在弹出的“节点池扩缩容”窗口中,设置扩缩容参数。 扩缩容:选择“扩容节点”或“缩容节点”。
变更集群规格 操作场景 当前集群管理规模可支持管理的用户节点个数不能满足用户诉求,可通过“变更集群规格”功能来扩大使用的用户节点个数。 约束限制 单控制节点的集群不允许变更到1000节点及以上。 变更集群规格不支持修改控制节点数量。 变更集群规格目前只支持扩容到更大规格,不支持降低集群规格。
允许挂载目录非空 allow_other 无需填写 允许其他用户访问并行文件系统 no_check_certificate 无需填写 不校验服务端证书 enable_noobj_cache 无需填写 为不存在的对象启用缓存条目,可提高性能。对象桶读写模式下自动使用。 从everest
everest.io/share-export-location:挂载目录配置。由SFS Turbo共享路径和子目录组成,共享路径可至SFS Turbo服务页面查询,子路径由用户自定义,后续指定该StorageClass创建的PVC均位于该子目录下。 everest.io/share-volume-type:选填字段。填写SFS
集群网络配置 节点最少绑定容器网卡数 节点最少绑定容器网卡数,保障节点最少有多少张容器网卡绑定在节点上,支持数值跟百分比两种配置方式。 参数名 取值范围 默认值 是否允许修改 作用范围 nic-minimum-target 0-256 10 允许 CCE Turbo 节点最少绑定容器网卡数:
4.16及以上版本的Everest插件。 问题原因 cce_cluster_agency委托是CCE的系统委托,其中包含CCE组件需要的云服务资源操作权限,但不包含支付权限,详情请参见系统委托说明。在创建包周期的云硬盘存储卷时,要求包含支付权限,因此需要为cce_cluster_
包年/包月节点池修改自动续费配置 使用包年/包月计费模式的节点池支持开启自动续费配置,如果您需要修改自动续费的周期配置,可参考本文指导进行修改。 约束与限制 修改包年包月节点池自动续费配置后,仅对新增的节点生效,存量节点需要手动修改自动续费模式,详情请参见包年/包月节点修改自动续费配置。
设置容忍策略 容忍度(Toleration) 允许调度器将Pod调度至带有对应污点的节点上。 容忍度需要和节点污点相互配合,每个节点上都可以拥有一个或多个污点,对于未设置容忍度的Pod,调度器会根据节点上的污点效果进行选择性调度,可以用来避免Pod被分配到不合适的节点上。更多关于容忍度的使用示例请参见污点和容忍度。
CCE中使用x86和ARM双架构镜像 应用现状 CCE支持在同一集群下创建x86节点及ARM架构节点。由于ARM和x86底层架构不同,通常ARM架构的镜像(也就是应用程序)无法在x86架构节点上运行,反之亦然。这就容易造成工作负载在拥有x86与ARM节点的集群上部署失败。 解决方案
everest.io/share-export-location:挂载目录配置。由SFS Turbo共享路径和子目录组成,共享路径可至SFS Turbo服务页面查询,子路径由用户自定义,后续指定该StorageClass创建的PVC均位于该子目录下。 everest.io/share-volume-type:选填字段。填写SFS
请不要操作任何命名空间下的default-secret、paas.elb。其中,default-secret用于SWR的私有镜像拉取,paas.elb用于该命名空间下的服务对接ELB。 使用密钥设置工作负载的环境变量 使用密钥配置工作负载的数据卷 本节以下面这个Secret为例,具体介绍Secret的用法。 apiVersion:
x),如果在创建Ingress时没有显示指定Ingress类别为nginx,该资源将被Nginx Ingress Controller忽略,Ingress规则失效,导致服务中断。 已纳入升级前检查,也可参照nginx-ingress插件升级检查进行自检。 v1.19升级至v1.21 Kubernetes v1
cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片,4P * 2方式。每4块NPU 1980芯片之间通过HCCS互联,4块之间通过PCIe swith互联。
无本地存储的轻量化模式指标数据存储于AOM,您的Grafana等应用需要对接至AOM。该模式集群内资源占用非常低,可以显著节省您的计算和存储成本,AOM服务按照上报的指标量进行计费,其中,基础指标免费,自定义指标按量计费;自定义指标可以按需废弃,您可以仅保留基础免费指标使用AOM。 该模式暂不支持基于自定义普罗语句的HPA。