检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
解析延迟,通过使用合适的容器镜像、节点DNS缓存NodeLocal DNSCache等方式来减少解析异常。 优化域名解析请求 选择合适的镜像 避免IPVS缺陷导致的DNS概率性解析超时 使用节点DNS缓存NodeLocal DNSCache 及时升级集群中的CoreDNS版本 谨慎调整VPC和虚拟机的DNS配置
enable-resource-quota true/false false 允许 1.21版本以上的CCE Standard/CCE Turbo集群 通过配额管理功能,用户可以对命名空间或相关维度下的各类负载(deployment, pod等)数量以及资源(cpu, memory)上限进行
客户端ID:填写一个ID,后续创建容器时使用。 签名公钥:CCE集群的jwks,获取方法请参见步骤一:获取CCE集群的签名公钥。 身份转换规则 身份映射规则是将工作负载的ServiceAccount和IAM用户做映射。 例如在集群default命名空间下创建一个名为oidc-token的ServiceAccount,
级后集群不能绑定与表中不匹配的ASM网格版本。例如,使用v1.21版本集群与1.8版本ASM网格,若要升级至v1.25版本集群时,请先升级ASM网格至1.15版本后再进行v1.25版本集群升级。 若您没有安装ASM网格服务,请检查集群中是否安装了开源的istio服务。如果安装了i
在替换节点池、节点滚动升级等场景中,需要使用新节点池替换旧节点池。在这些场景下,为做到业务不感知,可以在业务触发变更时,将业务的Pod软亲和调度到新的节点池上。这种软亲和调度会尽量将新创建的Pod或者重调度的Pod调度到新的节点池,如果新节点池资源不足,或者新节点池无法调度,也要能将Pod调度到旧节点池上。节点池替
Ingress 流量切换前,假设您已将业务域名通过A记录解析的方式指向了自建Nginx Ingress的公网地址。您可以使用DNS的流量权重分配,逐步将访问原Nginx Ingress的流量切换至新的ELB Ingress。 图1 使用DNS切流 您可以通过以下步骤完成流量的切换。 进入公网域名列表页面。
调度策略 如何让多个Pod均匀部署到各个节点上? 如何避免节点上的某个容器被驱逐? 为什么Pod在节点不是均匀分布? 如何驱逐节点上的所有Pod? 如何查看Pod是否使用CPU绑核? 节点关机后Pod不重新调度 如何避免非GPU/NPU负载调度到GPU/NPU节点? 为什么Pod调度不到某个节点上?
TFJob可在GPU场景下进行,该场景需要集群中包含GPU节点,并安装合适的驱动。 在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行训练,每次训练32张图像(ba
revisionHistoryLimit: 10 表2 关键参数说明 参数 描述 name 创建的工作负载名称。 image 工作负载的镜像。 mountPath 容器内挂载路径,示例中挂载到“/tmp”路径。 serviceName 工作负载对应的服务,服务创建过程请参见创建有状态负载(StatefulSet)。
每批最大同步节点,取值范围[1-20]。节点升级时,允许节点不可用的最大数量。节点重置方式进行同步时节点将不可用,请合理设置该参数,尽量避免出现集群节点不可用数量过多导致Pod无法调度的情况。 nodeIDs 否 Array of strings 本次操作同步的节点池中选择的节点ID列表,获取方式请参见如何获取接口URI中参数。
法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。 插件会对实例添加针对node
扩容时,本次需要扩容的节点数与已有节点数相加不可超过当前集群管理规模。 缩容时,本次需要缩容节点数不可超过已有节点数。 缩容操作可能导致与节点有绑定关系的资源(本地存储,指定调度节点的负载等)无法正常使用。请谨慎操作,避免对运行中的业务造成影响。 单击“确定”,即可完成节点池的扩缩容。 父主题:
v1.29集群:v1.29.4-r0及以上 其他更高版本集群 如果升级前集群已开启Secret落盘加密特性,则目标集群的版本同样需要支持Secret落盘加密特性,您需要选择满足条件的版本进行升级。 父主题: 升级前检查异常问题排查
范围:正整数;例如10,表示节点最少有10张容器网卡绑定在节点上。当超过节点的容器网卡配额时,后台取值为节点的容器网卡配额。 配置建议: 建议配置为大部分节点日常运行Pod个数的大小;集群中的节点上会根据配置的值预热出一定的网卡个数,预热的网卡会占用容器子网的IP,请合理规划容器子网网段大小。 预热容器网卡上限检查值
像仓库的密码。 DOCKER_EMAIL:第三方镜像仓库的邮箱。 创建工作负载时使用第三方镜像,具体步骤请参见如下。 kubernetes.io/dockerconfigjson类型的密钥作为私有镜像获取的认证方式,以Pod为例,创建的myregistrykey作为镜像的认证方式。
U/NPU节点的CPU、内存资源被普通工作负载占用的情况,导致GPU/NPU资源闲置。 解决方案 在使用GPU/NPU节点时,可以为其添加污点,并通过工作负载容忍度设置,避免非GPU/NPU工作负载调度到GPU/NPU节点上。 GPU/NPU工作负载:添加指定污点的容忍度,可以调度至GPU/NPU节点。
像时让Pod调度到ARM架构的节点上,使用x86架构镜像时让Pod调度到x86架构的节点上。 构建双架构镜像,同时支持两种架构,当Pod调度到ARM架构节点时拉取ARM架构的镜像,当Pod调度到x86架构节点时拉取x86架构的镜像。双架构镜像的一个特征是镜像可以只使用一个地址,但
检查节点是否需要迁移。 解决方案 该问题由于节点拉包组件异常或节点由比较老的版本升级而来,导致节点上缺少关键的系统组件导致。 解决方案一 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面,单击对应节点的“更多 > 重置节点”,详情请参见重置节点。节点重置完毕后,重试检查任务。
通过节点的标签和标签值划分节点范围,将节点分为不同的拓扑域。 例如,topologyKey为prefer,表示可以通过节点标签prefer划分拓扑域。拓扑域1的范围为带有prefer=true标签的节点,拓扑域2的范围为带有prefer=false标签的节点,拓扑域3的范围为不带prefer标签的节点。
检查Job的.status.termination字段。该字段的值表示终止过程中的Job所关联的Pod数量。 带索引Job的回退限制 默认情况下,带索引的Job(Indexed Job)的 Pod 失败情况会被记录下来,受.spec.backoffLimit字段所设置的全局重试次