检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Volcano调度工作负载 Volcano是一个基于Kubernetes的批处理平台,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户,并针对计算型应用提供了作业调度、作业管理、队列管理等多项功能
节点镜像层数量异常检查 检查项内容 检查到您的节点上镜像层数量过多(>5000层),可能导致docker/containerd启动过慢,影响docker/containerd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。
故障现象 在使用containerd容器引擎场景下,拉取镜像到节点时,概率性缺少镜像层,导致工作负载容器创建失败。
CCE容器存储插件(Everest) 插件介绍 CCE容器存储(Everest)插件基于CSI(即Container Storage Interface)为Kubernetes 集群对接云存储服务的能力。
GPU监控指标说明 CCE AI套件(NVIDIA GPU)插件提供GPU监控指标,并集成了DCGM-Exporter组件(要求插件版本2.7.32+),引入更丰富的GPU可观测性场景。本文介绍CCE AI套件(NVIDIA GPU)插件指标的详细信息。
调度器是通过一系列算法计算出Pod运行的最佳节点,但是Kubernetes集群环境是存在动态变化的,例如某一个节点需要维护,这个节点上的所有Pod会被驱逐到其他节点,但是当维护完成后,之前被驱逐的Pod并不会自动回到该节点上来,因为Pod一旦被绑定了节点是不会触发重新调度的。
成本洞察 成本洞察基于真实账单和集群资源用量统计数据,通过自研的成本画像算法进行成本拆分,提供以部门、集群、命名空间、应用等维度的成本画像。成本洞察能够帮助成本管理人员分析集群成本开销、资源使用状况,识别资源浪费,为下一步的成本优化提供输入。 父主题: 云原生成本治理
成本洞察概述 成本洞察基于真实账单和集群资源用量统计数据,通过自研的成本画像算法进行成本拆分,提供以部门、集群、命名空间、应用等维度的成本画像。成本洞察能够帮助成本管理人员分析集群成本开销、资源使用状况,识别资源浪费,为下一步的成本优化提供输入。
Binpack功能介绍 Binpack调度算法的目标是尽量把已有的节点填满(即尽量不往空白节点分配)。具体实现上,Binpack调度算法为满足调度条件的节点打分,节点的资源利用率越高得分越高。
问题描述 tailf /dev/null的方式启动容器,然后手动执行启动脚本的方式得到的目录的权限是700,而不加tailf由Kubernetes自行启动的方式得到的目录权限却是751。 解决方案 这个问题是因为两种方式设置的umask值不一样,所以创建出来的目录权限不相同。
给需要迁移工作负载的节点打上Taint(污点)。
每个节点都包含运行Pod所需要的基本组件,包括 Kubelet、Kube-proxy 、Container Runtime等。在云容器引擎CCE中,主要采用高性能的弹性云服务器ECS或裸金属服务器BMS作为节点来构建高可用的Kubernetes集群。
负载均衡配置: 分配策略:可选择加权轮询算法、加权最少连接或源IP算法。 加权轮询算法:根据后端服务器的权重,按顺序依次将请求分发给不同的服务器。它用相应的权重表示服务器的处理性能,按照权重的高低以及轮询方式将请求分配给各服务器,相同权重的服务器处理相同数目的连接数。
解决方案 若您的节点池的运行时非containerd,您可通过更新节点池功能将节点池的运行时修改为containerd。 如果您仍想在1.27以上集群中创建并使用docker节点池,可跳过该告警,但推荐您尽快切换至containerd,它提供了更出色的用户体验和更强大的功能。
解决方案 若您的节点的运行时非containerd,您可通过节点重置功能重置节点的运行时为containerd。 如果您仍想在1.27以上集群中创建并使用docker节点,可跳过该告警,但推荐您尽快切换至containerd,它提供了更出色的用户体验和更强大的功能。
(get nodes.metrics.k8s.io) 可能原因 执行kubectl时出现Error from server (ServiceUnavailable)时,表示未能连接到集群,需要检查kubectl到集群Master节点的网络是否能够连通。
查看是否存在排水任务,以下为正常回显: kubectl get drainage 图1 排水任务,以下回显表示存在排水任务 请将drainage资源进行删除,删除之后再次触发升级前检查。 执行以下命令删除排水任务。
DRF调度算法优先考虑集群中业务的吞吐量,适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。 启用公平调度(DRF)后,可增强集群业务的吞吐量,提高业务运行性能。详情请参见公平调度(DRF)。
claimName: cce-obs-demo 表1 关键参数说明 参数 描述 replicas 实例数。
spec.template.spec.volumes.persistentVolumeClaim claimName 已有PVC名称。