检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
诊断项及修复方案 集群维度 集群诊断场景 诊断项 是否需要开通监控中心 修复方案 集群资源规划能力 集群Master节点是否高可用 是 集群为单控制节点或者存在控制节点异常,当再有控制节点故障时,集群将不可用,进而会影响集群中运行服务的可靠性。提升服务韧性建议使用高可用集群或者修
通过动态存储卷使用本地持久卷 前提条件 您已经创建好一个集群,并且在该集群中安装CSI插件(everest)。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 您已经将一块节点数据盘导入本地持久卷存储池,详情请参见在存储池中导入持久卷。
通过静态存储卷使用已有云硬盘 CCE支持使用已有的云硬盘创建存储卷(PersistentVolume)。创建成功后,通过创建相应的PersistentVolumeClaim绑定当前PersistentVolume使用。适用于已有底层存储或底层存储需要包周期的场景。 前提条件 您已
云原生监控插件 插件简介 云原生监控插件(kube-prometheus-stack)通过使用Prometheus-operator和Prometheus,提供简单易用的端到端Kubernetes集群监控能力。 使用kube-prometheus-stack可将监控数据与监控中心
使用GPU虚拟化 本文介绍如何使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 单个GPU卡最多虚拟化成20个GPU虚拟设备。
创建或升级实例失败,提示rendered manifests contain a resource that already exists 问题现象 创建或升级实例失败,提示“Create release by helm failed:rendered manifests contain
云硬盘概述 为满足数据持久化的需求,CCE支持将云硬盘(EVS)创建的存储卷挂载到容器的某一路径下,当容器在同一可用区内迁移时,挂载的云硬盘将一同迁移。通过云硬盘,可以将存储系统的远端文件目录挂载到容器中,数据卷中的数据将被永久保存,即使删除了容器,数据卷中的数据依然保存在存储系统中。
使用Kubernetes默认GPU调度 CCE支持在容器中使用GPU资源。 前提条件 创建GPU类型节点,具体请参见创建节点。 集群中需要安装GPU插件,且安装时注意要选择节点上GPU型号对应的驱动,具体请参见CCE AI套件(NVIDIA GPU)。 在v1.27及以下的集群中
集群可用但节点状态为“不可用”如何解决? 当集群状态为“可用”,而集群中部分节点状态为“不可用”时,请参照如下方式来排查解决。 节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性,并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。 使用NPD插件排查故障
节点监控 如果您需要监控节点的资源使用情况,可以前往“监控中心 > 节点”页面查看。该页面提供了指定集群下所有节点的综合信息,以及单个节点的详细监控数据,包括CPU/内存使用率、网络流入/流出速率、磁盘读/写IO等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左
日志中心概述 Kubernetes日志可以协助您排查和诊断问题。本文介绍CCE如何通过多种方式进行Kubernetes日志管理。 CCE提供给您多种方式进行Kubernetes日志管理。 您可以方便地使用CCE 云原生日志采集插件采集应用日志并上报LTS,从而更好地利用LTS日志
容器镜像签名验证 插件简介 容器镜像签名验证插件(swr-cosign)提供镜像验签功能,可以对镜像文件进行数字签名验证,以确保镜像文件的完整性和真实性,有效地防止软件被篡改或植入恶意代码,保障用户的安全。 约束与限制 使用镜像验签功能依赖容器镜像仓库企业版,请先创建一个企业版仓库。
为IPv6双栈网卡的Pod配置共享带宽 使用场景 默认情况下具有IPv6双栈网卡的Pod只具备IPv6私网访问能力,如果需要访问公网,则需要为该IPv6双栈网卡的Pod配置共享带宽。 约束限制 仅支持CCE Turbo集群,且需要满足以下条件: 集群已开启IPv6双栈。 集群版本为v1
CCE集群安全配置建议 从安全的角度,建议您对集群做如下配置。 使用最新版本的CCE集群 Kubernetes社区一般4个月左右发布一个大版本,CCE的版本发布频率跟随社区版本发布节奏,在社区发布Kubernetes版本后3个月左右同步发布新的CCE版本,例如Kubernetes
通过动态存储卷使用云硬盘 CCE支持指定存储类(StorageClass),自动创建云硬盘类型的底层存储和对应的存储卷,适用于无可用的底层存储,需要新创建的场景。 前提条件 您已经创建好一个集群,并且在该集群中安装CCE容器存储(Everest)。 如果您需要通过命令行创建,需要
本地持久卷(Local PV) 本地持久卷概述 在存储池中导入持久卷 通过动态存储卷使用本地持久卷 在有状态负载中动态挂载本地持久卷 父主题: 存储
6-r0、v1.28.4-r0及以上。 选择某个企业项目后,节点将会创建在该企业项目下。您可以通过企业项目服务(EPS)管理集群及其他资源(节点、ELB、以及节点的安全组等)。了解更多企业项目相关信息,请查看企业管理。 登录方式 密码 用户名默认为“root”,请输入登录节点的密码,并确认密码。
DNS DNS概述 工作负载DNS配置说明 使用CoreDNS实现自定义域名解析 使用NodeLocal DNSCache提升DNS性能 父主题: 网络
Jenkins Agent配置 安装完Jenkins后,可能会出现以下提示,说明Jenkins使用Master进行本地构建,未配置Agent。 如果您选择单Master安装Jenkins,执行完毕Jenkins Master安装部署中的操作后已完成,可直接进行流水线构建,请参见使用Jenkins构建流水线。
组调度(Gang) 组调度(Gang)满足了调度过程中“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件