检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点异常问题排查 排查思路 CCE支持通过NPD插件排查节点异常问题,您也可以参考自主排查流程进行排查。 若通过NPD插件排查和自主排查流程都无法解决问题,请提交工单排查。 通过NPD插件排查 CCE提供节点故障检测NPD插件,NPD插件从1.16.0版本开始增加了大量检查项,能
TCP:30000-32767 所有IP地址(0.0.0.0/0) 集群NodePort服务默认访问端口范围。 可修改 端口需对VPC网段、容器网段和ELB的网段放通。 UDP:30000-32767 全部 容器网段 允许集群中的容器访问节点。 不可修改 不涉及 全部 Node节点安全组 限制
集群可用但节点状态为“不可用”如何解决? 当集群状态为“可用”,而集群中部分节点状态为“不可用”时,请参照本文提供的排查思路解决。 节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性,并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一
为什么容器无法连接互联网? 当容器无法连接互联网时,首先需要排查容器所在节点能否连接互联网。其次,需要查看容器的网络配置是否正确,例如DNS配置是否可以正常解析域名。 排查项一:节点能否连接互联网 登录ECS控制台。 查看节点对应的弹性云服务器是否已绑定弹性IP或者配置NAT网关。
策略触发时,工作负载实例将在此范围内伸缩。 须知: 在CCE Turbo集群中,如果使用独享型ELB对接到工作负载,则最大实例数不能超过ELB的后端服务器组配额(默认为500),否则将会导致多余的实例无法添加到ELB后端。 冷却时间 请输入缩容和扩容的冷却时间,单位为分钟,缩容扩容冷却时间不能小于1分钟。
在有状态负载中动态挂载本地持久卷 使用场景 动态挂载仅可在创建有状态负载(StatefulSet)时使用,通过卷声明模板(volumeClaimTemplates字段)实现,并依赖于StorageClass的动态创建PV能力。在多实例的有状态负载中,动态挂载可以为每一个Pod关联
使用GPU虚拟化 本文介绍如何使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 单个GPU卡最多虚拟化成20个GPU虚拟设备。
dev-secret kubernetes.io/service-account-token 3 4h14m paas.elb cfe/secure-opaque 1 2d22h 利用de
使用第三方镜像 操作场景 CCE支持拉取第三方镜像仓库的镜像来创建工作负载。 通常第三方镜像仓库必须经过认证(账号密码)才能访问,而CCE中容器拉取镜像是使用密钥认证方式,这就要求在拉取镜像前先创建镜像仓库的密钥。 前提条件 使用第三方镜像时,请确保工作负载运行的节点可访问公网。
日志中心概述 Kubernetes日志可以协助您排查和诊断问题。本文介绍CCE如何通过多种方式进行Kubernetes日志管理。 CCE提供给您多种方式进行Kubernetes日志管理。 您可以方便地使用CCE 云原生日志采集插件采集应用日志并上报LTS,从而更好地利用LTS日志
通过动态存储卷使用本地持久卷 前提条件 您已经创建好一个集群,并且在该集群中安装CSI插件(everest)。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 您已经将一块节点数据盘导入本地持久卷存储池,详情请参见在存储池中导入持久卷。
诊断项及修复方案 集群诊断项及修复方案 集群维度 集群诊断场景 诊断项 是否需要开通监控中心 修复方案 集群资源规划能力 集群Master节点是否高可用 是 集群为单控制节点或者存在控制节点异常,当再有控制节点故障时,集群将不可用,进而会影响集群中运行服务的可靠性。提升服务韧性建
设置工作负载亲和/反亲和调度(podAffinity/podAntiAffinity) 工作负载亲和/反亲和调度是Kubernetes提供的任务调度方式,可以使用工作负载作为亲和对象,灵活地将新建的工作负载调度到与其相关或无关的节点上,可以有效地提高集群的利用率。 例如,通信频繁
通过动态存储卷使用专属存储 CCE支持指定存储类(StorageClass),自动创建专属存储类型的底层存储和对应的存储卷,适用于无可用的底层存储,需要新创建的场景。 前提条件 您已经创建好一个集群,集群版本满足v1.21.15-r0、v1.23.14-r0、v1.25.9-r0、v1
工作负载异常:实例驱逐异常(Evicted) 驱逐原理 当节点出现异常时,为了保证工作负载的可用性,Kubernetes会通过驱逐机制(Eviction)将该节点上的Pod调离异常节点。 目前Kubernetes中存在两种Eviction机制,分别由kube-controller-manager和kubelet实现。
K8s节点污点检查异常处理 检查项内容 检查节点上是否存在集群升级需要使用到的污点。 表1 检查污点列表 污点名称 污点影响 node.kubernetes.io/upgrade NoSchedule 解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命
安全运行时与普通运行时 相比于普通运行时,安全运行时可以让您的每个容器(准确地说是Pod)都运行在一个单独的微型虚拟机中,拥有独立的操作系统内核,以及虚拟化层的安全隔离。通过使用安全运行时,不同容器之间的内核、计算资源、网络都是隔离开的,保护了Pod的资源和数据不被其他Pod抢占和窃取。
在有状态负载中动态挂载专属存储 使用场景 动态挂载仅可在创建有状态负载(StatefulSet)时使用,通过卷声明模板(volumeClaimTemplates字段)实现,并依赖于StorageClass的动态创建PV能力。在多实例的有状态负载中,动态挂载可以为每一个Pod关联一
通过动态存储卷创建SFS Turbo子目录(推荐) 通常情况下,在工作负载容器中挂载SFS Turbo类型的存储卷时,默认会将根目录挂载到容器中。而SFS Turbo的容量最小为500G,超出了大多数工作负载所需的容量,导致存储容量的浪费。为了更加经济合理地利用存储容量,CCE支持在创建PVC时动态创建SFS