检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查集群管理平面网段是否与主干配置一致 检查项内容 检查集群管理平面网段是否与主干配置一致。 解决方案 该问题由于您的局点做过管理面网段配置修改,导致主干配置中的管理平面网段不一致; 请您提交工单,联系技术支持人员修改配置之后重启检查。 父主题: 升级前检查异常问题排查
ntainerd启动过慢,影响docker/containerd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。 父主题: 升级前检查异常问题排查
节点CPU数量检查异常处理 检查项内容 检查您的集群Master节点的CPU核心数量,要求Master节点的核心数量大于2核。 解决方案 当前您的Master节点cpu数量为2,可能会导致集群升级失败; 请联系技术支持人员,将该集群Master节点扩容至4核及以上。 父主题: 升级前检查异常问题排查
CCE会将用户的子网DNS信息配置到node节点上,coredns插件中也是使用该配置信息,因此会导致用户在节点容器内解析域名会偶发失败的状况。 解决方案 建议您通过修改coredns插件的存根域更新用户集群子网DNS配置,修改方法请参见为CoreDNS配置存根域。 父主题: 域名DNS
排水任务检查异常处理 检查项内容 检查到集群中存在未完成的排水任务,此时升级可能会导致升级完成后触发排水动作,将运行中的Pod进行驱逐。 解决方案 配置Kubectl命令,具体请参见通过kubectl连接集群。 查看是否存在排水任务,以下为正常回显: kubectl get drainage
残留packageversion检查异常处理 检查项内容 检查当前集群中是否存在残留的packageversion。 解决方案 检查提示您的集群中存在残留的CRD资源10.12.1.109,该问题一般由于CCE早期版本节点删除后,对应的CRD资源未被清除导致。 您可以尝试手动执行以下步骤:
Taints: key1=value1:NoSchedule ... 表1 存在资源压力的节点状况及解决方案 节点状况 节点污点 驱逐信号 描述 解决方案 MemoryPressure node.kubernetes.io/memory-pressure memory.available
异常事件排查查找异常的解决方案。 如果Service不存在异常事件,则一般为访问类问题或周边服务配置引入的问题,可参考根据常见问题对比排查查找异常的解决方案。 根据Service异常事件排查 不同异常事件的解决方法如下表所示: 报错信息 说明 解决方案 Quota exceeded
NAT网关服务所有资源列表的查看权限。 sfs:*:get* - SFS(弹性文件存储)所有资源详情的查看权限。 sfs:shares:ShareAction - SFS(弹性文件存储)资源的扩容共享。 sfsturbo:*:get* - SFS Turbo(极速弹性文件存储)服务所有资源详情的查看权限。
在CCE集群中部署使用Tensorflow 资源准备 购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取tens
升级管控检查异常处理 检查项内容 检查集群是否处于升级管控中。 解决方案 CCE基于以下几点原因,可能会暂时限制该集群的升级功能: 基于用户提供的信息,该集群被识别为核心重点保障的生产集群。 正在或即将进行其他运维任务,例如Master节点3AZ改造等。 请根据界面日志联系技术支持人员了解限制原因并申请解除升级限制。
问题描述 在节点负载压力比较大的场景下,可能存在NPD进程资源残留的问题。 问题现象 登录到CCE集群的ECS节点,查询存在大量npd进程。 解决方案 升级CCE节点故障检测(简称NPD)插件至最新版本。 登录CCE控制台,进入集群,在左侧导航栏中选择“插件中心”,单击CCE节点故障检测下的“升级”。
远端样本滞后比率 秒 存储在WAL中的样本的最高时间戳与远程写入成功的最高时间戳的比率 远程写流量 字节/秒 远程写入的速率 当前队列数 个 当前用于并行发送到远程存储的分片数 最大队列数 个 可用于并行发送到远程存储的分片数的最大值 最小队列数 个 可用于并行发送到远程存储的分片数的最小值
variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment String ak = System.getenv("CLOUD_SDK_AK"); String sk = System.get
实例调度失败 请参考工作负载异常:实例调度失败 Pending 实例挂卷失败 请参考工作负载异常:存储卷无法挂载或挂载超时 Pending 添加存储失败 请参考工作负载异常:添加存储失败 FailedPullImage ImagePullBackOff 拉取镜像失败 重新拉取镜像失败
系统会为您检查集群内是否存在跳过升级的节点,您可以根据诊断结果前往节点列表页进行确认。跳过的节点含有标签upgrade.cce.io/skipped=true。 解决方案 对于升级详情页面中跳过的节点,请在升级完毕后重置节点。 重置节点会重置所有节点标签,可能影响工作负载调度,请在重置节点前检查并保留您手动为该节点打上的标签。
工作负载弹性伸缩 工作负载伸缩原理 创建HPA策略 创建使用自定义指标的HPA策略 创建CronHPA定时策略 创建CustomedHPA策略 创建VPA策略 创建AHPA策略 管理工作负载弹性伸缩策略 父主题: 弹性伸缩
节点NetworkManager检查异常处理 检查项内容 检查节点上的NetworkManager状态是否正常。 解决方案 请登录该节点,执行systemctl is-active NetworkManager命令查询NetworkManager服务运行状态。若回显状态异常,请执行systemctl
节点Ready检查异常处理 检查项内容 检查集群内节点是否Ready。 解决方案 问题场景一:节点状态显示不可用 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”,筛选出状态不可用的节点后,请参照控制台提供的“修复建议”修复该节点后重试检查。 问题场景二:节点状态与实际不符
该告警通常发生在低版本集群升级到v1.27及以上集群。CCE不建议您在1.27以上版本集群中继续使用docker,并计划在未来移除对docker的支持。 解决方案 若您的节点池的运行时非containerd,您可通过更新节点池功能将节点池的运行时修改为containerd。 如果您仍想在1.27以上