检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点CPU数量检查异常处理 检查项内容 检查您的集群Master节点的CPU核心数量,要求Master节点的核心数量大于2核。 解决方案 当前您的Master节点cpu数量为2,可能会导致集群升级失败; 请联系技术支持人员,将该集群Master节点扩容至4核及以上。 父主题: 升级前检查异常问题排查
检查节点镜像数量异常处理 检查项内容 检查到您的节点上镜像数量过多(>1000个),可能导致docker启动过慢,影响docker标准输出,影响nginx等功能的正常使用。 解决方案 请手动删除残留的镜像,防止后续升级异常; 删除镜像之后请您重新进行升级前检查 父主题: 升级前检查异常问题排查
集群创建 CCE集群创建失败的原因与解决方法? 集群的管理规模和控制节点的数量有关系吗? CCE集群创建时的根证书如何更新? 使用CCE需要关注哪些配额限制? 父主题: 集群
PostcheckResponseSpec object spec是升级后确认的配置信息。 表3 PostcheckResponseSpec 参数 是否必选 参数类型 描述 clusterID 否 String 集群ID clusterVersion 否 String 升级前的集群版本 targetVersion 否
CCE基于以下几点原因,可能会暂时限制该集群的升级功能: 基于用户提供的信息,该集群被识别为核心重点保障的生产集群。 正在或即将进行其他运维任务,例如Master节点3AZ改造等。 集群中存在容器引擎为Docker但OS与节点池配置不同的节点,您可以重置这部分节点后再次执行升级前检查。
该漏洞影响范围如下: 本次漏洞对所有采用runc的容器引擎均生效,runc是Docker容器的核心组件,因此对绝大部分容器均会产生影响。其中主要影响的是多用户共享节点的场景,可导致某用户通过渗透进而控制节点并攻击整集群。 华为云CCE容器服务: CCE容器服务创建的Kubernetes集群属于单租
[tolerate-unready-endpoints] 检查日志信息中所给出的service是否存在"tolerate-unready-endpoints"的annotation,如果存在则将其去掉,并在对应的service的spec中添加下列字段来替代该annotation: publishNotReadyAddresses:
30版本中,Pod拓扑分布中的最小域特性进阶至GA。此特性允许通过Pod的minDomains字段配置符合条件的域的最小数量。负载拓扑约束匹配到的域的数量如果大于minDomains,则该字段没有影响;如果小于minDomains,则会将全局最小值(符合条件的域中匹配 Pod 的最小数量)设为
限制单个容器的主目录大小(默认为10GB),但节点上的所有容器还是共用节点的thinpool磁盘空间,并不是完全隔离,当一些容器使用大量thinpool空间且总和达到节点thinpool空间上限时,也会影响其他容器正常运行。 另外,在容器的主目录中创删文件后,其占用的thinpo
节点上的Pod每秒发送的字节数 接收数据包速率 个/秒 节点上的Pod每秒接收的数据包个数 发送数据包速率 个/秒 节点上的Pod每秒发送的数据包个数 丢包速率(接收) 个/秒 节点上的Pod每秒接收丢失的数据包个数 丢包速率(发送) 个/秒 节点上的Pod每秒发送丢失的数据包个数
Pod重建风险检查异常处理 检查项内容 检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。 解决方案 请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响; 如需帮助,请您提交工单联系运维人员获取支持。 父主题: 升级前检查异常问题排查
排水任务检查异常处理 检查项内容 检查到集群中存在未完成的排水任务,此时升级可能会导致升级完成后触发排水动作,将运行中的Pod进行驱逐。 解决方案 配置Kubectl命令,具体请参见通过kubectl连接集群。 查看是否存在排水任务,以下为正常回显: kubectl get drainage
状态码 错误码 获取项目ID 获取账号ID 创建集群时指定要安装的插件 如何获取接口URI中参数 创建VPC和子网 创建密钥对 节点规格(flavor)说明 创建节点时password字段加盐加密的方法 节点可创建的最大Pod数量说明 节点操作系统 默认数据盘空间分配说明 节点磁盘挂载
> 默认联系组”页面对确认订阅的终端,执行删除即可。 图1 删除联系组 为什么告警清除之后还会继续发送告警? 告警清除仅清除告警规则页面的统计,如该告警持续达到阈值或者异常事件持续发生,仍会产生告警。 告警中心的联系组支持钉钉、飞书等么? 在告警中心的默认联系组页面无法创建钉钉、飞
会将CPU Manager的策略设置为static,允许为节点上具有某些资源特征的pod赋予增强的CPU亲和性和独占性。用户如果直接在ECS控制台对CCE节点变更规格,会由于变更前后CPU信息不匹配,导致节点上的负载无法重新拉起,也无法创建新负载。 登录CCE节点(弹性云服务器)
检查集群是否满足滚动升级条件 检查项内容 检查到您的集群暂时不满足滚动升级条件。 解决方案 该检查失败一般由于资源租户的资源配额不足引起,无法支持滚动升级; 请联系运维人员扩充资源之后重新检查。 父主题: 升级前检查异常问题排查
弹性网卡实例、辅助弹性网卡实例等。您可以将残留的资源(辅助弹性网卡会自动删除)删除。 以删除残留的弹性网卡为例,您需要前往弹性网卡界面将上一步查询到的网卡删除。 可以用ID过滤需要删除的弹性网卡,也可以通过集群ID的名称过滤需要删除的弹性网卡。 清理完成后,前往安全组页面确认该安
节点交换区检查异常处理 检查项内容 检查集群CCE节点的上是否开启了交换区。 解决方案 CCE节点默认关闭swap交换区,请您确认手动开启交换区的原因,并确定关闭影响; 若确定无影响后请执行swapoff -a命令关闭交换区之后重新检查。 父主题: 升级前检查异常问题排查
Master节点规格检查异常处理 检查项内容 检查本次升级集群的Master节点规格与实际的Master节点规格是否一致。 解决方案 该问题一般因为您进行过Master节点改造,此次升级可能会将您的Master节点重置为标准版本; 如您无法确认影响,请您提交工单联系运维人员支撑。
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态