检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
操作步骤如下: 登录CCE控制台,单击集群名称进入集群。 在左侧列表中选择“节点管理”,勾选GPU/NPU节点,并单击“标签与污点管理”。 单击“新增批量操作”,为GPU/NPU节点添加污点。 选择“污点(Taints)”,并填写键值与污点效果。示例中,为GPU/NPU节点添加accelera
根据GPU/NPU卡信息定位使用该卡的Pod 在CCE中使用GPU/NPU卡时,无法直接获取到使用该卡的Pod。您可以根据GPU/NPU卡的信息,通过kubectl命令行操作筛选Pod,以便在GPU/NPU卡故障时能够及时将Pod驱逐。 前提条件 已创建CCE集群,且配置了kubectl命
一次性Job 创建一个Pod直至其成功结束 数据库迁移 固定结束次数的Job 依次创建一个Pod运行直至completions个成功结束 处理工作队列的Pod 固定结束次数的并行Job 依次创建多个Pod运行直至completions个成功结束 多个Pod同时处理工作队列 并行Job
pvc-obs-example.yaml K8s集群版本(K8s version) 说明 yaml示例 1.11 ≤ K8s version ≤ 1.13 1.11以上及1.13版本集群 请参见1.11~1.13 yaml文件配置示例 K8s version = 1.9 1.9版本集群
standard-ia) name: pvc-obs-auto-example # PVC名称 namespace: default spec: accessModes: - ReadWriteMany resources: requests:
failed in cluster upgrade: this cluster has deprecated service list: map[***] with deprecated annotation list [tolerate-unready-endpoints] 检查日志信息
节点CPU使用率检查异常处理 检查项内容 检查节点CPU使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
云原生成本治理概述 云原生成本治理是基于FinOps理念的容器成本治理解决方案,提供部门维度、集群维度、命名空间维度的成本和资源画像,并通过工作负载资源推荐等优化手段协助企业IT成本管理人员实现容器集群的提效降本诉求。 成本洞察 成本洞察基于真实账单和集群资源用量统计数据,通过自
cgroup统计资源异常导致kubelet驱逐Pod 故障现象 ARM架构节点上,cgroup统计资源异常导致kubelet驱逐Pod,节点无法正常使用。 kubelet一直在驱逐pod,把容器全终止之后还是认为内存不足。 此时实际资源使用正常。 查看/sys/fs/cgroup
及时升级集群中的CoreDNS版本 CoreDNS功能较为单一,对不同的Kubernetes版本也实现了较好的兼容性,CCE会定期同步社区bug,升级CoreDNS插件的版本,建议客户定期升级集群的CoreDNS版本。CCE的插件管理中心提供了CoreDNS的安装及升级功能。您可以定义关注集群中的CoreDNS
节点交换区检查异常处理 检查项内容 检查集群CCE节点的上是否开启了交换区。 解决方案 CCE节点默认关闭swap交换区,请您确认手动开启交换区的原因,并确定关闭影响; 若确定无影响后请执行swapoff -a命令关闭交换区之后重新检查。 父主题: 升级前检查异常问题排查
expr: kube_pod_container_resource_requests{resource="cpu",unit="core"} - record: cpu_limit expr: kube_pod_container_resour
用。 检查步骤 系统会为您检查集群内是否存在跳过升级的节点,您可以根据诊断结果前往节点列表页进行确认。跳过的节点含有标签upgrade.cce.io/skipped=true。 解决方案 对于升级详情页面中跳过的节点,请在升级完毕后重置节点。 重置节点会重置所有节点标签,可能影响
如何解决VPC网段与容器网络冲突的问题? 在集群创建页面,若“容器网段”配置与“VPC网段”冲突,界面会提示“该网段与VPC网段有冲突,请重新选择”,重新调整“容器网段”即可。 图1 网段冲突提示 父主题: 网络异常问题排查
annotations: csi.storage.k8s.io/node-publish-secret-name: test-user csi.storage.k8s.io/node-publish-secret-namespace: default volume.beta
使用节点伸缩功能前,需要安装CCE集群弹性引擎插件,插件版本要求1.13.8及以上。 Cluster Autoscaler工作原理 Cluster Autoscaler主要流程包括两部分: 扩容流程: Autoscaler会每隔10s检查一次所有未调度的Pod,根据用户设置的策略,选择出一个符合要求的节点池进行扩容。
检查节点是否需要迁移。 解决方案 该问题由于节点拉包组件异常或节点由比较老的版本升级而来,导致节点上缺少关键的系统组件导致。 解决方案一 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面,单击对应节点的“更多 > 重置节点”,详情请参见重置节点。节点重置完毕后,重试检查任务。
Master节点规格检查异常处理 检查项内容 检查本次升级集群的Master节点规格与实际的Master节点规格是否一致。 解决方案 该问题一般因为您进行过Master节点改造,此次升级可能会将您的Master节点重置为标准版本; 如您无法确认影响,请您提交工单联系运维人员支撑。
式解决。本文介绍如何通过控制台进行云硬盘存储卷扩容。 前提条件 您已经创建好一个集群,并且在该集群中安装CCE容器存储(Everest)。 按需计费的云硬盘存储卷 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏选择“存储”,在右侧选择“存储卷声明”页签。单击PVC操作列的“更多
如何确认已创建的集群是否为多控制节点模式? 登录CCE控制台,进入集群,在集群详情页面右侧查看控制节点数量: 3个节点即为多控制节点模式。 1个节点即为单控制节点模式。 集群一旦创建,便无法更改控制节点数,需要重新创建集群才能调整。 父主题: 集群运行