检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查项内容 检查CCE使用的目录/var/paas内文件的属主和属组是否都为paas。 解决方案 问题场景一: 错误信息为“xx file permission has been changed!”。 解决方案: CCE使用/var/paas目录进行基本的节点管理活动并存储属主和属组均为paas的文件数据。
其中调度器判定节点资源不足的计算方式为: 集群节点CPU资源不足的判定方式:当前Pod请求的CPU资源总量>(节点可分配的CPU资源总量-节点已分配的CPU资源总量) 集群节点内存资源不足的判定方式:当前Pod请求的内存资源总量>(节点可分配的内存资源总量-节点已分配的内存资源总量) 集
OM实例。本章节介绍如何为集群开通监控中心功能。 开通监控中心后,集群中的指标将上报至AOM实例,AOM针对基础指标免费,自定义指标由AOM服务收费,具体请参考价格详情。 云原生监控插件在集群中运行需要消耗集群资源,请确保集群资源能够满足插件的安装。具体资源消耗可以前往“插件中心”云原生监控插件安装页面获取。
即停止驱逐节点上的Pod。 kubelet的eviction机制 如果节点处于资源压力,那么kubelet就会执行驱逐策略。驱逐会考虑Pod的优先级,资源使用和资源申请。当优先级相同时,资源使用/资源申请最大的Pod会被首先驱逐。 kube-controller-manager的
残留待迁移节点检查异常处理 检查项内容 检查节点是否需要迁移。 解决方案 该问题由于节点拉包组件异常或节点由比较老的版本升级而来,导致节点上缺少关键的系统组件导致。 解决方案一 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面,单击对应节点的“更多 > 重置节
这就需要在CCE集群上既能使用华为云域名解析服务器,也能够使用IDC内部域名服务器。如果将CCE节点上域名解析服务器指向IDC的域名解析服务器,那会导致无法解析华为云的域名;如果修改hosts文件配置增加IDC内部域名IP,在IDC内部服务IP变化时需要实时刷新CCE节点的配置,这很难做到且会导致不可用。
内部错误异常处理 检查项内容 该检查非常规检查项,表示升级前检查流程中出现了内部错误。 解决方案 该问题出现后,请您优先重试升级前检查; 若重试升级前检查仍失败,请您提交工单,联系技术支持人员。 父主题: 升级前检查异常问题排查
使用Volcano调度工作负载 资源利用率优化调度 针对计算资源进行优化的调度策略,可以有效减少各节点资源碎片,最大化地提高计算资源的利用率。 资源利用率优化调度 业务优先级保障调度 根据业务的重要性和优先级,设置自定义的策略对业务占用的资源进行调度,确保关键业务的资源优先级得到保障。 业务优先级保障调度
实施步骤 集群外资源迁移 迁移工具安装 集群内资源迁移(Velero) 资源更新适配 其余工作 异常排查及解决 父主题: 将K8s集群迁移到CCE
GPU插件的驱动版本较低,单独下载驱动安装后正常。 工作负载中未声明需要gpu资源。 建议方案 节点安装了gpu-beta(gpu-device-plugin)插件后,会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败,请排查nvidia驱动是否下载成功。 GPU节点:
U信息不匹配,导致节点上的负载无法重新拉起,也无法创建新负载。 更多信息请参见Kubernetes控制节点上的CPU管理策略。 影响范围 开启了CPU管理策略的集群。 解决方案 登录CCE节点(弹性云服务器)并删除cpu_manager_state文件。 删除命令示例如下: rm
其他 定时任务停止一段时间后,为何无法重新启动? 创建有状态负载时,实例间发现服务是指什么? CCE容器拉取私有镜像时报错“Auth is empty” CCE集群中工作负载镜像的拉取策略有哪些? 鲲鹏集群Docker容器挂载点被卸载 下载镜像缺少层如何解决? 容器内的文件权限和用户都是问号
集群安装nginx-ingress插件失败,一直处于创建中? NPD插件版本过低导致进程资源残留问题 模板格式不正确,无法删除模板实例? CCE是否支持nginx-ingress? 插件安装失败,提示The release name is already exist如何解决? 创建或升级实例失败,提示rendered
S策略配置不合理,集群规模较大时,DNS容易出现解析超时、解析失败等现象,极端场景下甚至会引起集群内业务大面积解析失败。本文介绍Kubernetes集群中CoreDNS配置优化的最佳实践,帮助您避免此类问题。 解决方案 CoreDNS配置优化包含客户端优化及服务端优化。 在客户端
e异常事件排查查找异常的解决方案。 如果Service不存在异常事件,则一般为访问类问题或周边服务配置引入的问题,可参考根据常见问题对比排查查找异常的解决方案。 根据Service异常事件排查 不同异常事件的解决方法如下表所示: 报错信息 说明 解决方案 Quota exceeded
当前检查项包括以下内容: 检查当前节点DNS配置是否能正常解析OBS地址 检查当前节点是否能访问存储升级组件包的OBS地址 解决方案 节点升级过程中,需要从OBS拉取升级组件包。此项检查失败,请联系技术人员支持。 父主题: 升级前检查异常问题排查
检查项内容 检查集群中的Kubernetes组件、容器运行时组件、网络组件等组件,要求在升级前以上组件运行正常。 解决方案 请您优先重试升级前检查; 若重试检查仍失败时,请您提交工单,联系技术支持人员进行处理。 父主题: 升级前检查异常问题排查
绑定弹性公网IP。为方便用户在CCE内直接为Pod关联安全组,CCE新增了一个名为SecurityGroup的自定义资源对象。通过SecurityGroup资源对象,用户可对工作负载实现自定义的安全隔离诉求。 使用安全组策略(SecurityGroup)为Pod绑定的安全组优先
试和安全管理等维度变得更加复杂,在管理微服务时,往往需要在业务代码中添加微服务治理相关的代码,导致开发人员不能专注于业务开发,还需要考虑微服务治理的解决方案,并且将解决方案融合到其业务系统中。 价值 云容器引擎深度集成应用服务网格,提供开箱即用的应用服务网格流量治理能力,用户无需
文件日志 日志无法上报,otel组件标准输出报错:log's quota has full 采集容器内日志,且采集目录配置了通配符,日志无法采集 fluent-bit容器组一直重启 节点OS为Ubuntu 18.04时出现日志无法采集 采集Job日志时出现日志无法采集 云原生日志采集插件运行正常,部分日志策略未生效