检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
收集容器日志 通过云原生日志采集插件采集容器日志 通过ICAgent采集容器日志(不推荐) 父主题: 日志中心
15 适配CCE v1.15集群 2.10.0 2.23.30 v1.17 v1.19 v1.21 适配CCE v1.21集群 2.10.0 2.21.14 v1.17 v1.19 v1.21 适配CCE v1.21集群 2.10.0 2.21.12 v1.15 适配CCE v1.15集群
容器镜像签名验证插件版本发布记录 表1 swr-cosign插件版本记录 插件版本 支持的集群版本 更新特性 1.0.2 v1.23 v1.25 v1.27 支持v1.27集群 1.0.1 v1.23 v1.25 支持镜像验签 父主题: 插件版本发布记录
GPU节点驱动版本 选择GPU节点驱动版本 CCE推荐的GPU驱动版本列表 手动更新GPU节点驱动版本 通过节点池升级节点的GPU驱动版本 父主题: GPU调度
程中会批量处理证书文件,证书文件过多可能导致节点升级过慢,节点上Pod被驱逐等。 解决方案 方案一:优先建议您重置节点,详情请参考重置节点。 方案二:修复节点上证书轮转异常问题。 进入节点/opt/cloud/cce/kubernetes/kubelet/pki/目录。 备份节点
创建工作负载 创建无状态负载(Deployment) 创建有状态负载(StatefulSet) 创建守护进程集(DaemonSet) 创建普通任务(Job) 创建定时任务(CronJob) 父主题: 工作负载
命名空间(如:ns)下创建时不能创建成功。 原因分析 创建弹性负载均衡ELB后,使用default命名空间创建80端口的http监听,在CCE中只允许在本命名空间下创建同一端口的其它ingress(实际转发策略可根据域名、service来区分);所以出现客户侧在其它命名空间无法创
删除挂载了云存储的Pod时提示target is busy 现象描述 在删除Pod时一直处于Terminating状态,通过节点上的/var/log/cce/kubernetes/kubelet.log路径查询kubelet日志,出现以下错误提示: ...unmount failed:
Guaranteed BestEffort类型的Pod:系统用完了全部内存时,该类型Pod会最先被终止。 Burstable类型的Pod:系统用完了全部内存,且没有BestEffort容器可以终止时,该类型Pod会被终止。 Guaranteed类型的Pod:系统用完了全部内存、且没有Burs
问题现象 工作负载的状态为“已停止”。 问题原因: 工作负载的yaml的中metadata.enable字段为false,导致工作负载被停止,Pod被删除导致工作负载处于已停止状态,如下图所示: 解决方案 将enable字段删除或者将false修改为true。 父主题: 工作负载异常问题排查
Memory)事件,导致容器异常退出。关于OOM事件,可以参考为容器和Pod分配内存资源。 解决方案 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 通过Pod内存监控查看内存增长曲线,确定异常出现时间。
盘可能会与Pod调度到的节点不在同一个AZ,导致Pod无法调度成功。 解决方案 CCE提供了名为csi-disk-topology的StorageClass,也叫延迟绑定的云硬盘存储类型。使用csi-disk-topology创建PVC时,不会立即创建PV,而是等Pod先调度,然
业务优先级保障调度 优先级调度与抢占 父主题: Volcano调度
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
集群状态检查 检查项内容 集群升级后,需要检查集群状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群状态是否正常,您可以根据诊断结果前往集群列表页面进行确认。 解决方案 当集群状态异常时,请联系技术支持人员。 父主题: 升级后验证
K8s节点污点检查异常处理 检查项内容 检查节点上是否存在集群升级需要使用到的污点。 表1 检查污点列表 污点名称 污点影响 node.kubernetes.io/upgrade NoSchedule 解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命
集群的管理规模和控制节点的数量有关系吗? 集群管理规模是指:当前集群支持管理的最大节点数。若选择50节点,表示当前集群最多可管理50个节点。 针对不同的集群规模,控制节点的规格不同,但数量不受管理规模的影响。 集群的多控制节点模式开启后将创建三个控制节点,在单个控制节点发生故障后集群可以继续使用,不影响业务功能。
调用方法 请参见如何调用API。 URI PUT /api/v3/projects/{project_id}/clusters/{cluster_id}/nodepools/{nodepool_id}/nodes/migrate 表1 路径参数 参数 是否必选 参数类型 描述 project_id
节点CPU数量检查异常处理 检查项内容 检查您的集群Master节点的CPU核心数量,要求Master节点的核心数量大于2核。 解决方案 当前您的Master节点cpu数量为2,可能会导致集群升级失败; 请联系技术支持人员,将该集群Master节点扩容至4核及以上。 父主题: 升级前检查异常问题排查
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb