检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过PromQL语句查询Prometheus数据 PromQL是Prometheus Query Language的缩写,是一种用于查询和聚合时间序列数据的查询语言。Prometheus是一个开源的监控系统,用于收集和存储时间序列数据,每个时间序列都由一个唯一的标识符和一组时间戳
内存申请量:Pod内存Request值。 内存限制量:Pod内存Limit值,使用量到达该值时会导致容器OOM。 网络相关指标 网络总流出速率:Pod的所有容器每秒钟发送的总字节数。 网络总流入速率:Pod的所有容器每秒钟接收的总字节数。 容器相关指标 容器CPU使用率:Pod的每个容器在不同的时间段的CPU使用量占它们的CPU
31 支持CCE v1.31集群 2.4.75 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 Huawei Cloud EulerOS 2.0节点上的云硬盘类型PVC支持指定Fstype类型为xfs 2.4.72 v1.23 v1.25 v1.27 v1
使用GPU虚拟化 本文介绍如何使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 单个GPU卡最多虚拟化成20个GPU虚拟设备。
CCE集群版本:v1.9-v1.17.9。 如果没有使用主机网络并且容器内进程不以root用户(UID为0)运行,则不涉及该漏洞。 漏洞修复方案 建议使用最小权限运行容器,对于不信任的容器进行如下限制: 禁止使用主机网络; 禁止容器内的进程以root用户运行。 相关链接 containerd-shim
容器异常退出状态码 当容器启动失败或终止时,K8s事件中将会打印容器异常退出状态码(Exit Code)来报告容器异常的原因。本文将介绍如何通过事件中打印的Exit Code进一步定位容器异常的根本原因。 查看容器异常退出状态码 您可使用kubectl连接集群,并通过以下命令查询Pod详细状态:
续费包年/包月集群 客户购买包周期集群后,支持续费包周期资源。 操作步骤 本节以计费模式为“包年/包月”的集群为例,介绍如何为购买的集群续费。 包周期的集群超期未续费将会被系统删除,删除后集群内的节点以及运行的业务都将销毁,请务必及时续费或开通自动续费。 登录CCE控制台,在左侧导航栏中选择“集群管理”。
相关或无关的节点上,可以有效地提高集群的利用率。 例如,通信频繁的前端应用Pod和后端应用Pod可优先调度到同一个节点或同一个可用区,减少网络延迟。工作负载亲和/反亲和的示意如下: 首先,拓扑域(根据topologyKey划分)通过节点的标签和标签值划分节点范围,将节点分为不同的拓扑域。
量大于等于2。 由于安装Kubeflow需要从github下载文件,从gcr.io等下载镜像,建议在华为云国际站创建集群,否则容易碰到较多网络问题。 节点上绑定了EIP,并配置了kubectl命令行工具,详情请参见通过kubectl连接集群。 安装Kustomize Kustom
检查节点上是否存在不可访问的挂载点。 解决方案 问题场景:节点上存在不可访问的挂载点 节点存在不可访问的挂载点,通常是由于该节点或节点上的Pod使用了网络存储nfs(常见的nfs类型有obsfs、sfs等),且节点与远端nfs服务器断连,导致挂载点失效,所有访问该挂载点的进程均会出现D状态卡死。
集群升级 CCE集群升级时,升级集群插件失败如何排查解决? 父主题: 集群
您的集群中存在容器引擎为Docker的节点或节点池。 注意事项 理论上节点容器运行时的迁移会导致业务短暂中断,因此强烈建议您迁移的业务保证多实例高可用部署,并且建议先在测试环境试验迁移的影响,以最大限度避免可能存在的风险。 Containerd不具备镜像构建功能,请勿在Containerd节点上使用Docker
操作系统节点内核版本。 accelerator/huawei-npu NPU节点标签。 accelerator GPU节点标签。 cce.cloud.com/cce-nodepool 节点池节点专属标签。 添加/删除节点标签 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧
X-Cluster-ID 否 String 集群 ID,使用https://Endpoint/uri这种URL格式时必须指定此参数。获取方式请参见如何获取接口URI中参数 表2 请求Body参数 参数 是否必选 参数类型 描述 apiVersion 是 String API版本,固定值v1
命名空间 命名空间因APIService对象访问失败无法删除 如何删除Terminating状态的命名空间?
将多个集群对接到同一个Prometheus监控系统,如下所示,节约维护成本和资源成本,且方便汇聚监控信息。 前提条件 目标集群已创建。 Prometheus与目标集群之间网络保持连通。 已在一台Linux主机中使用二进制文件安装Prometheus,详情请参见Installation。 操作步骤 分别获取目标集群的bearer_token
普通任务(Job)和定时任务(CronJob) 守护进程集(DaemonSet) 亲和与反亲和调度 配置管理 ConfigMap Secret Kubernetes网络 容器网络 Service Ingress 就绪探针(Readiness Probe) NetworkPolicy 持久化存储 Volume PV、PVC和StorageClass
配置中心 集群配置概览 集群访问配置 网络配置 调度配置 集群弹性伸缩配置 监控运维配置 Kubernetes原生配置 异构资源配置
插件 插件概述 容器调度与弹性插件 云原生可观测性插件 云原生异构计算插件 容器网络插件 容器存储插件 容器安全插件 其他插件
支持删除命名空间 支持EVS云硬盘存储解绑 支持配置迁移策略 问题修复: 修复网络插件防止健康检查概率死锁问题 修复高可用集群haproxy连接数限制问题 v1.7.3-r10 主要特性: 容器网络支持Overlay L2模式 集群节点支持GPU类型虚机 集群节点支持CentOS