检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工作负载异常:实例拉取镜像失败 问题定位 当工作负载状态显示“实例未就绪:Back-off pulling image "xxxxx"”,该状态下工作负载实例K8s事件名称为“实例拉取镜像失败”或“重新拉取镜像失败”。查看K8s事件的方法请参见Pod事件查看方法。 排查思路 根据
仪表盘:仪表盘可将不同图表汇聚到同一个屏幕上,通过不同的仪表形式来展示资源数据,例如,曲线图、数字图等,进而全面、深入地掌握监控数据。 优势 监控中心深度整合云原生基金会(CNCF)的监控项目Prometheus。对关键指标、事件等运维数据进行统一采集、存储和可视化展现,精心打造云原生应用的良好可观测性能力。
CCE集群纳管节点时的常见问题及排查方法? 概述 本文主要介绍纳管/添加已有的ECS实例到CCE集群的常见问题。 纳管时,会将所选弹性云服务器的操作系统重置为CCE提供的标准镜像,以确保节点的稳定性,请选择操作系统及重置后的登录方式。 所选弹性云服务器挂载的系统盘、数据盘都会在纳管时被格式化,请确保信息已备份。
节点磁盘挂载 应用现状 在自规划磁盘、创建条带逻辑盘等使用场景下,如何在创建节点时,灵活的挂载和划分磁盘成为一个问题。 节点创建中storage字段通过磁盘的大小、磁盘类型等参数的匹配来选择数据盘,避免了盘符匹配失败导致的节点创建、重置、迁移、纳管失败问题(例如当创建节点时Nod
在日志中心创建策略,详细方法请参见通过云原生日志采集插件采集容器日志 详细方法请参见Kubernetes事件上报应用运维管理(AOM) 监控目录数 目录递归深度最多5层,最大不超过1000个文件。 支持最多3层模糊匹配目录。 - 监控文件数 每个通过卷挂载日志的路径下,ICAgent最多采集20个日志文件。
存储扩容 CCE节点可进行扩容的存储类型如下: 表1 不同类型的扩容方法 类型 名称 用途 扩容方法 节点磁盘 系统盘 系统盘用于安装操作系统。 系统盘扩容 数据盘 节点上的第一块数据盘供容器引擎和Kubelet组件使用。 容器引擎空间扩容 Kubelet空间扩容 容器引擎和Kubelet共享磁盘空间扩容
误卸载存储池的磁盘后如何恢复 存储池是Everest创建的一种Custom Resource,资源为nodelocalvolumes,该资源在正常情况下不建议手动操作。Everest每分钟会扫描空闲磁盘,并检查已添加进存储池的磁盘是否正常。 Everest使用LVM进行存储池管理
工作负载异常:启动容器失败 问题定位 工作负载详情中,若事件中提示“启动容器失败”,请按照如下方式来初步排查原因: 登录异常工作负载所在的节点。 查看工作负载实例非正常退出的容器ID。 docker ps -a | grep $podName 查看退出容器的错误日志。 docker
在CCE集群中部署使用ClickHouse ClickHouse是一款用于联机分析(OLAP)的列式数据库管理系统,适用于处理大规模数据集的实时查询和分析。ClickHouse容器化部署方式主要有4种,具体请参见表1。ClickHouse Operator是在Kubernetes
为负载均衡类型的Service配置自定义EIP 通过CCE自动创建的带有EIP的ELB,可以通过添加Service的annotation(kubernetes.io/elb.custom-eip-id)完成ELB的EIP的自定义配置。 前提条件 已创建Kubernetes集群,且集群版本满足以下要求:
Nginx Ingress ELB Ingress 产品定位 七层流量治理,提供丰富的高级路由功能。 七层流量治理,提供丰富的高级路由功能。与云原生深度集成,提供高可用、高性能、超安全、多协议的全托管免运维负载均衡服务。 具备弹性能力,流量突发时支持扩展计算资源。 同时支持千万级并发连接,百万级新建连接。
如何根据集群规格调整插件配额? 当您的集群规格调整后,可能需要根据集群规格相应地调整插件资源配额,以确保插件实例能够正常运行。例如,如果您将集群规格从50节点调整为200节点或以上,则需要增加插件CPU、内存配额,防止插件实例因需要调度过多的节点而出现OOM等异常。因此,在调整集
设置指定节点调度(nodeSelector) 在Kubernetes中,选择某个节点调度最简单的方式是在工作负载中配置nodeSelector字段,您可以通过nodeSelector字段设置希望调度的目标节点标签。Kubernetes只会将Pod调度到拥有指定标签的节点上。 前提条件
守护进程集(DaemonSet) 守护进程集(DaemonSet) DaemonSet(守护进程集)在集群的每个节点上运行一个Pod,且保证只有一个Pod,非常适合一些系统层面的应用,例如日志收集、资源监控等,这类应用需要每个节点都运行,且不需要太多实例,一个比较好的例子就是Ku
CCE推荐的GPU驱动版本列表 对于CCE集群,各系统推荐使用驱动版本如下表,若使用非CCE推荐驱动版本,需要您自行验证机型、系统及驱动版本间的配套兼容性。您可以根据您的应用所使用的CUDA Toolkit版本,对照CUDA Toolkit与NVIDIA驱动的版本兼容性列表,选择合适的NVIDIA驱动版本。
Namespace:资源分组 为什么需要Namespace Label虽然好,但只用Label的话,那Label会非常多,有时候会有重叠,而且每次查询之类的动作都带一堆Label非常不方便。Kubernetes提供了Namespace来做资源组织和划分,使用多Namespace可
配置容忍度(Toleration) 容忍度可以允许Pod在某些条件下被调度到节点上,即使这些节点上有污点(Taints)存在。比如,对于一个与节点本地状态有着深度绑定的应用而言, 您可能希望在出现网络分裂事件时仍然停留在当前节点上运行一段较长的时间,以等待网络恢复以避免被驱逐。 某些情况下,Kube
默认数据盘空间分配说明 本章节将详细介绍节点数据盘空间分配的情况,以便您根据业务实际情况配置数据盘大小。 设置默认数据盘空间分配 v1.23.18-r0、v1.25.13-r0、v1.27.10-r0、v1.28.8-r0、v1.29.4-r0以下版本的集群中,节点会添加一块默认
默认数据盘空间分配说明 本章节将详细介绍节点数据盘空间分配的情况,以便您根据业务实际情况配置数据盘大小。 设置默认数据盘空间分配 v1.23.18-r0、v1.25.13-r0、v1.27.10-r0、v1.28.8-r0、v1.29.4-r0以下版本的集群中,节点会添加一块默认
增强型CPU管理策略 在Kubernetes默认提供的CPU管理策略中有none和static两种: none: 默认不开启CPU管理策略,表示现有的调度行为。 static:开启静态绑核的CPU管理策略,允许为节点上具有某些资源特征的 Pod(Guaranteed pod)赋予增强的