检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
即停止驱逐节点上的Pod。 kubelet的eviction机制 如果节点处于资源压力,那么kubelet就会执行驱逐策略。驱逐会考虑Pod的优先级,资源使用和资源申请。当优先级相同时,资源使用/资源申请最大的Pod会被首先驱逐。 kube-controller-manager的
使用Volcano调度工作负载 资源利用率优化调度 针对计算资源进行优化的调度策略,可以有效减少各节点资源碎片,最大化地提高计算资源的利用率。 资源利用率优化调度 业务优先级保障调度 根据业务的重要性和优先级,设置自定义的策略对业务占用的资源进行调度,确保关键业务的资源优先级得到保障。 业务优先级保障调度
其他云服务商提供的集群服务 停止维护,无法原地升级的需要迁移的CCE集群 在迁移前,需对原集群的所有资源进行分析再决定迁移方案,可迁移的资源包括集群内资源和集群外资源,如下表所示。 表1 可迁移资源列表 资源类别 可迁移对象 备注 集群内资源 集群中的所有对象,Pod、Job、S
动安装后正常。 客户工作负载中未声明需要gpu资源。 建议方案 节点安装了gpu-beta(gpu-device-plugin)插件后,会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败,请排查nvidia驱动是否下载成功。 GPU节点:
节点Sudo检查异常处理 检查项内容 检查当前节点sudo命令,sudo相关文件是否正常。 解决方案 问题场景一:sudo命令执行失败 集群原地升级过程中依赖sudo命令正常可用,请登录节点执行如下命令,排查sudo命令可用性。 sudo echo hello 如果sudo命令不
节点干扰ContainerdSock检查异常处理 检查项内容 检查节点上是否存在干扰的Containerd.Sock文件。该文件影响Euler操作系统下的容器运行时启动。 解决方案 问题场景:节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点。
域名DNS CCE集群内域名解析失败,如何定位处理? 为什么CCE集群的容器无法通过DNS解析? 为什么修改子网DNS配置后,无法解析租户区域名? 解析外部域名很慢或超时,如何优化配置? 如何设置容器内的DNS策略?
实施步骤 集群外资源迁移 迁移工具安装 集群内资源迁移(Velero) 资源更新适配 其余工作 异常排查及解决 父主题: 将K8s集群迁移到CCE
节点CCE Agent版本检查异常处理 检查项内容 检测当前节点的CCE包管理组件cce-agent是否为最新版本。 解决方案 问题场景一: 错误信息为“you cce-agent no update, please restart it”。 该问题为cce-agent无需更新,
无法自动创建包周期的云硬盘存储卷 问题现象 创建包周期的云硬盘存储卷时,无法为cce_cluster_agency委托添加支付权限。 当集群版本为v1.23.14-r0、v1.25.9-r0、v1.27.6-r0、v1.28.4-r0及以上时支持动态创建包周期的云硬盘存储卷,且集群中需安装2
集群安装nginx-ingress插件失败,一直处于创建中? NPD插件版本过低导致进程资源残留问题 模板格式不正确,无法删除模板实例? CCE是否支持nginx-ingress? 插件安装失败,提示The release name is already exist如何解决? 创建或升级实例失败,提示rendered
S策略配置不合理,集群规模较大时,DNS容易出现解析超时、解析失败等现象,极端场景下甚至会引起集群内业务大面积解析失败。本文介绍Kubernetes集群中CoreDNS配置优化的最佳实践,帮助您避免此类问题。 解决方案 CoreDNS配置优化包含客户端优化及服务端优化。 在客户端
集群运行 当集群状态为“不可用”时,如何排查解决? CCE集群如何重置或重装? 如何确认已创建的集群是否为多控制节点模式? 是否可以直接连接CCE集群的控制节点? CCE集群删除之后相关数据能否再次找回? 为什么CCE集群界面的节点磁盘监控看起来不准确? 如何修改CCE集群名称? 父主题:
检查项内容 检查集群中的Kubernetes组件、容器运行时组件、网络组件等组件,要求在升级前以上组件运行正常。 解决方案 请您优先重试升级前检查; 若重试检查仍失败时,请您提交工单,联系技术支持人员进行处理。 父主题: 升级前检查异常问题排查
应用现状 在自规划磁盘、创建条带逻辑盘等使用场景下,如何在创建节点时,灵活的挂载和划分磁盘成为一个问题。 节点创建中storage字段通过磁盘的大小、磁盘类型等参数的匹配来选择数据盘,避免了盘符匹配失败导致的节点创建、重置、迁移、纳管失败问题(例如当创建节点时NodeExtendPar
节点池异常状态 说明 解决方案 错误 Error 节点池删除失败 重试删除节点池操作,如果节点池仍旧无法删除,请提交工单帮助删除错误节点池。 配额不足 QuotaInsufficient 用户配额不足导致节点池无法扩容 请提交工单申请扩大账号配额。 资源售罄 SoldOut 底层资源不足 更新节点池配置,选择其他可用资源。
NGINX Ingress控制器插件涉及的K8s资源: 命名空间级别资源:secret、configmap、deployment、service、role、rolebinding、lease、serviceAccount、job 集群级别资源:clusterRole、clusterRo
绑定弹性公网IP。为方便用户在CCE内直接为Pod关联安全组,CCE新增了一个名为SecurityGroup的自定义资源对象。通过SecurityGroup资源对象,用户可对工作负载实现自定义的安全隔离诉求。 使用安全组策略(SecurityGroup)为Pod绑定的安全组优先
同步节点池 在节点池配置更新后,节点池中的已有节点无法自动同步部分配置,您可以手动同步节点配置。 批量同步过程中请勿删除或重置节点,否则可能导致节点池配置同步失败。 该操作涉及重置节点,节点上已运行的工作负载业务可能会由于单实例部署、可调度资源不足等原因产生中断,请您合理评估升级风险,并
U信息不匹配,导致节点上的负载无法重新拉起,也无法创建新负载。 更多信息请参见Kubernetes控制节点上的CPU管理策略。 影响范围 开启了CPU管理策略的集群。 解决方案 登录CCE节点(弹性云服务器)并删除cpu_manager_state文件。 删除命令示例如下: rm