检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE集群创建失败的原因与解决方法? 概述 本文主要介绍在CCE集群创建失败时,如何查找失败的原因,并解决问题。 详细信息 集群创建失败的原因包括: ntpd没安装或者安装失败、k8s组件预校验不过、磁盘分区错误等,目前只能尝试重新创建,定位方法请参见定位失败原因。 当前集群规模所需的底层资源不足,请选择其他规模的集群类型后重新创建集群。
调度策略 如何让多个Pod均匀部署到各个节点上? 如何避免节点上的某个容器被驱逐? 为什么Pod在节点不是均匀分布? 如何驱逐节点上的所有Pod? 如何查看Pod是否使用CPU绑核? 节点关机后Pod不重新调度 如何避免非GPU/NPU负载调度到GPU/NPU节点? 为什么Pod调度不到某个节点上?
CCE集群删除之后相关数据能否再次找回? 问题描述: CCE集群删除之后相关数据能否再次找回? 问题解答: 集群删除之后,部署在集群上的工作负载也会同步删除,无法恢复,请慎重删除集群。 父主题: 集群运行
com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。 到插件运行所在的节点上,查看驱动的安装日志,路径如下所示: /opt/cloud/cce/nvidia/nvidia_installer.log 查看nvidia容器标准输出日志:
Engine,简称CCE)。云容器引擎提供高度可扩展的、高性能的企业级Kubernetes集群,支持运行Docker容器。借助云容器引擎,您可以在云上轻松部署、管理和扩展容器化应用程序。 您可以使用本文档提供API对云容器引擎进行相关操作,如创建、删除、变更规格、添加网卡等。支持的全部操作请参见2
metadata SnapshotTaskMetadata object 备份任务元数据信息 spec SnapshotSpec object 备份任务配置信息(待废弃) status SnapshotStatus object 备份任务状态 表4 SnapshotTaskMetadata 参数
工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态 工作负载异常:已停止 工作负载异常:GPU节点部署服务报错 工作负载异常:添加存储失败 工作负载异常:实例无法写入数据 工作负载异常:Init容器启动失败 工作负载异常:OOM问题 工作负载状态正常但未正常工作
不涉及 默认取值: 不涉及 表2 FormData参数 参数 是否必选 参数类型 描述 parameters 否 String 上传模板的配置参数,示例如下:"{"override":true,"skip_lint":true,"source":"package"}" skip_lint:
Metadata object 基本信息,为集合类的元素类型,包含一组由不同名称定义的属性 spec OpenAPISpec object 集群访问地址的配置参数信息 status status object 状态信息 表4 Metadata 参数 参数类型 描述 uid String 唯一id标识
域名解析失败排查思路 当遇到域名解析失败的问题时,首先需要判断是集群内域名还是集群外域名解析失败。 集群内域名: 确认coredns插件是否安装,coredns服务是否正常运行。 其他Pod到coredns的Pod网络是否正常,其他Pod到coredns的服务是否网络正常,如网络不正常:
产品变更公告 关于CentOS停止维护的通知 华为云容器服务CCE Autopilot数据面账单变更公告 华为云容器服务CCE Autopilot于2024年9月30日00:00(北京时间)转商 集群网络、存储功能可靠性加固说明 关于CCE集群Docker支持策略公告 ServiceAccount
产品发布记录 集群版本发布记录 操作系统镜像发布记录 插件版本发布记录
节点内存检查异常处理 检查项内容 检查节点内存使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
选中时间内成本分布。当前资源涵盖范围有:ECS成本、EVS成本、CCE集群管理成本 成本趋势 每天的成本分布趋势。从中可以看出,集群内成本开销趋势,可识别花费较高的资源 图3 集群各维度成本分析 名称 含义 命名空间 命名空间总成本:按命名空间聚合工作负载的成本,包括 CPU 成本(ECS)、内存成本(ECS)、EVS
CCE支持的存储在持久化和多节点挂载方面的有什么区别? 创建CCE节点时可以不添加数据盘吗? CCE集群中的EVS存储卷被删除或者过期后是否可以恢复? 公网访问CCE部署的服务并上传OBS,为何报错找不到host? Pod接口ExtendPathMode: PodUID如何与社区client-go兼容? 创建存储卷失败如何解决?
节点CPU使用率检查异常处理 检查项内容 检查节点CPU使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
Headless Service Service解决了Pod的内外部访问问题,但还有下面这些问题没解决。 同时访问所有Pod 一个Service内部的Pod互相访问 Headless Service正是解决这个问题的,Headless Service不会创建ClusterIP,并
漏洞修复策略 集群漏洞修复周期 高危漏洞: Kubernetes社区发现漏洞并发布修复方案后,CCE一般在1个月内进行修复,修复策略与社区保持一致。 操作系统紧急漏洞按照操作系统修复策略和流程对外发布,一般在一个月内提供修复方案,用户自行修复。 其他漏洞: 按照版本正常升级流程解决。
华为云容器服务CCE Autopilot于2024年9月30日00:00(北京时间)转商 发布时间:2024/08/29 华为云计划于2024年9月30日00:00(北京时间)将容器服务CCE Autopilot正式转商用。 服务正式商用后将收取集群管理费用,其余费用与公测期间保
集群版本公告 1.23版本集群停止维护公告 1.21版本集群停止维护公告 1.19版本集群停止维护公告 1.17版本集群停止维护公告 1.15版本集群停止维护公告 1.13版本集群停止维护公告 CCE不再支持1.13及之前版本集群的创建公告 Kubernetes 1.9的集群版本升级公告