检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
revisionHistoryLimit: 10 表2 关键参数说明 参数 描述 name 创建的工作负载名称。 image 工作负载的镜像。 mountPath 容器内挂载路径,示例中挂载到“/tmp”路径。 serviceName 工作负载对应的服务,服务创建过程请参见创建有状态负载(StatefulSet)。
扩容时,本次需要扩容的节点数与已有节点数相加不可超过当前集群管理规模。 缩容时,本次需要缩容节点数不可超过已有节点数。 缩容操作可能导致与节点有绑定关系的资源(本地存储,指定调度节点的负载等)无法正常使用。请谨慎操作,避免对运行中的业务造成影响。 单击“确定”,即可完成节点池的扩缩容。 父主题:
法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。 插件会对实例添加针对node
像时让Pod调度到ARM架构的节点上,使用x86架构镜像时让Pod调度到x86架构的节点上。 构建双架构镜像,同时支持两种架构,当Pod调度到ARM架构节点时拉取ARM架构的镜像,当Pod调度到x86架构节点时拉取x86架构的镜像。双架构镜像的一个特征是镜像可以只使用一个地址,但
U/NPU节点的CPU、内存资源被普通工作负载占用的情况,导致GPU/NPU资源闲置。 解决方案 在使用GPU/NPU节点时,可以为其添加污点,并通过工作负载容忍度设置,避免非GPU/NPU工作负载调度到GPU/NPU节点上。 GPU/NPU工作负载:添加指定污点的容忍度,可以调度至GPU/NPU节点。
检查节点是否需要迁移。 解决方案 该问题由于节点拉包组件异常或节点由比较老的版本升级而来,导致节点上缺少关键的系统组件导致。 解决方案一 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面,单击对应节点的“更多 > 重置节点”,详情请参见重置节点。节点重置完毕后,重试检查任务。
v1.29集群:v1.29.4-r0及以上 其他更高版本集群 如果升级前集群已开启Secret落盘加密特性,则目标集群的版本同样需要支持Secret落盘加密特性,您需要选择满足条件的版本进行升级。 父主题: 升级前检查异常问题排查
检查Job的.status.termination字段。该字段的值表示终止过程中的Job所关联的Pod数量。 带索引Job的回退限制 默认情况下,带索引的Job(Indexed Job)的 Pod 失败情况会被记录下来,受.spec.backoffLimit字段所设置的全局重试次
检查Job的.status.termination字段。该字段的值表示终止过程中的Job所关联的Pod数量。 带索引Job的回退限制 默认情况下,带索引的Job(Indexed Job)的 Pod 失败情况会被记录下来,受.spec.backoffLimit字段所设置的全局重试次
范围:正整数;例如10,表示节点最少有10张容器网卡绑定在节点上。当超过节点的容器网卡配额时,后台取值为节点的容器网卡配额。 配置建议: 建议配置为大部分节点日常运行Pod个数的大小;集群中的节点上会根据配置的值预热出一定的网卡个数,预热的网卡会占用容器子网的IP,请合理规划容器子网网段大小。 预热容器网卡上限检查值
像仓库的密码。 DOCKER_EMAIL:第三方镜像仓库的邮箱。 创建工作负载时使用第三方镜像,具体步骤请参见如下。 kubernetes.io/dockerconfigjson类型的密钥作为私有镜像获取的认证方式,以Pod为例,创建的myregistrykey作为镜像的认证方式。
通过节点的标签和标签值划分节点范围,将节点分为不同的拓扑域。 例如,topologyKey为prefer,表示可以通过节点标签prefer划分拓扑域。拓扑域1的范围为带有prefer=true标签的节点,拓扑域2的范围为带有prefer=false标签的节点,拓扑域3的范围为不带prefer标签的节点。
弹性网卡即虚拟网卡,您可以通过创建并配置弹性网卡,并将其附加到您的云服务器实例(包括弹性云服务器和裸金属服务器)上,实现灵活、高可用的网络方案配置。 弹性网卡类型 主弹性网卡:在创建云服务器实例时,随实例默认创建的弹性网卡称作主弹性网卡。主弹性网卡无法与实例进行解绑。 扩展弹性网
时跟进帮助您升级修复。 如果您是自行选择安装的NVIDIA GPU驱动或更新过节点上的GPU驱动,请参考上图确认您安装的GPU驱动是否受该漏洞影响。 如何确认GPU节点的NVIDIA驱动版本 登录到您的GPU节点,执行如下命令,即可查看驱动版本。 [root@XXX36 bin]#
io/url-match-mode指定的匹配方式,这与v1beta1方式相同。 Exact:精确匹配 URL 路径,且区分大小写。 Prefix:基于以 / 分隔的 URL 路径前缀匹配。匹配区分大小写,并且对路径中的元素逐个匹配。 路径元素指的是由 / 分隔符分隔的路径中的标签列表。 前提条件 集群必须已安装NGINX
容器驱逐配置 容器迁移对节点不可用状态的容忍时间 当节点出现异常,变为不可用状态时,容器将在该容忍时间后自动驱逐,默认为300s。 参数名 取值范围 默认值 是否允许修改 作用范围 default-not-ready-toleration-seconds 无强校验 300 允许 CCE
法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。 插件会对实例添加针对node
检查集群是否满足滚动升级条件 检查项内容 检查到您的集群暂时不满足滚动升级条件。 解决方案 该检查失败一般由于资源租户的资源配额不足引起,无法支持滚动升级; 请联系运维人员扩充资源之后重新检查。 父主题: 升级前检查异常问题排查
19版本。 最新版本的集群修复了已知的漏洞或者拥有更完善的安全防护机制,新建集群时推荐选择使用最新版本的集群。在集群版本停止提供服务前,请及时升级到新版本。 及时跟踪处理官网发布的漏洞 CCE服务会不定期发布涉及的漏洞,用户需及时关注和处理,参见漏洞公告。 关闭default的servic
节点(弹性至CCI)的Pod,其次删除按需计费节点上的Pod,最后删除包周期节点上的Pod。 应用扩缩容优先级策略包括两个方面: 针对扩容:集群中新建的Pod,Volcano会按照设定的节点优先级进行调度。 针对缩容:指定工作负载时,Volcano会按照设定的节点优先级对其进行打分,用于缩容时决定Pod删除顺序。