检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
调度概述 CCE支持不同类型的资源调度及任务调度等,可提升应用的性能和集群整体资源的利用率。本文介绍CPU资源调度、GPU/NPU异构资源调度、Volcano调度的主要功能。 CPU调度 CCE提供CPU管理策略为应用分配完整的CPU物理核,提升应用性能,减少应用的调度延迟。 功能
使用Kubeflow和Volcano实现典型AI训练任务 Kubernetes已经成为云原生应用编排、管理的事实标准, 越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernetes
解析外部域名很慢或超时,如何优化配置? 工作负载的容器内的resolv.conf文件,示例如下: 其中: nameserver:DNS服务器的IP地址,此处为coredns的ClusterIP。 search:域名的搜索列表,此处为Kubernetes的常用后缀。 ndots:“.
如何查看Pod是否使用CPU绑核? 以4U8G节点为例,并提前在集群中部署一个CPU request为1,limit为2的工作负载。 登录到节点池中的一个节点,查看/var/lib/kubelet/cpu_manager_state输出内容。 cat /var/lib/kubelet
OpenKruise 插件简介 OpenKruise是一个基于Kubernetes的扩展套件,使用CRD拓展来提供扩展工作负载和应用管理能力,实现云原生应用的自动化部署、发布、运维和可用性防护,使得应用的管理更加简单和高效。 OpenKruise的核心能力如下: 高级工作负载:OpenKruise
配置集群API Server公网访问 您可以为Kubernetes集群的API Server绑定弹性公网IP(EIP),使集群API Server具备公网访问能力。 为API Server绑定EIP 登录CCE控制台,单击集群名称进入集群。 查看集群“概览”页,在右边“连接信息”下公网地址一栏
thinpool磁盘空间耗尽导致容器或节点异常时,如何解决? 问题描述 当节点上的thinpool磁盘空间接近写满时,概率性出现以下异常: 在容器内创建文件或目录失败、容器内文件系统只读、节点被标记disk-pressure污点及节点不可用状态等。 用户可手动在节点上执行docker
云原生观测最佳实践 云原生监控插件兼容自建Prometheus 使用云原生监控插件监控自定义指标 使用AOM监控自定义指标 使用PrometheusRules配置普罗监控与告警规则 使用Prometheus监控Master节点组件指标 监控NGINX Ingress控制器指标 监控
插件实例字段说明 CoreDNS域名解析 CCE容器存储插件(Everest) CCE节点故障检测 Kubernetes Dashboard CCE集群弹性引擎 NGINX Ingress控制器 Kubernetes Metrics Server CCE容器弹性引擎 CCE突发弹性引擎
动态资源超卖 当前很多业务有波峰和波谷,部署服务时,为了保证服务的性能和稳定性,通常会按照波峰时需要的资源申请,但是波峰的时间可能很短,这样在非波峰时段就有资源浪费。另外,由于在线作业SLA要求较高,为了保证服务的性能和可靠性,通常会申请大量的冗余资源,因此,会导致资源利用率很低、
将节点容器引擎从Docker迁移到Containerd Kubernetes社区已经在v1.24版本中移除Dockershim,因此建议您将节点容器引擎从Docker逐步迁移至官方推荐的Containerd,以确保未来与Kubernetes版本的兼容性和持续支持。 前提条件 已创建至少一个集群
通过PromQL语句查询Prometheus数据 PromQL是Prometheus Query Language的缩写,是一种用于查询和聚合时间序列数据的查询语言。Prometheus是一个开源的监控系统,用于收集和存储时间序列数据,每个时间序列都由一个唯一的标识符和一组时间戳-
CCE容器弹性引擎插件版本发布记录 表1 CCE容器弹性引擎插件版本记录 插件版本 支持的集群版本 更新特性 1.5.21 v1.25 v1.27 v1.28 v1.29 v1.30 v1.31 支持CCE v1.31集群 支持应用趋势预测的智能弹性 1.5.3 v1.21 v1.23
选择合适的节点数据盘大小 节点在创建时会默认创建一块数据盘,供容器运行时和Kubelet组件使用,详情请参见数据盘空间分配说明。由于容器运行时和Kubelet组件使用的数据盘不可被卸载,且默认大小为100G,出于使用成本考虑,您可手动调整该数据盘容量,最小支持下调至20G,节点上挂载的普通数据盘支持下调至
自定义StorageClass 应用现状 CCE中使用存储时,最常见的方法是创建PVC时通过指定StorageClassName定义要创建存储的类型,如下所示,使用PVC申请一个SAS(高I/O)类型云硬盘/块存储。 apiVersion: v1 kind: PersistentVolumeClaim
如何设置容器内的DNS策略? CCE支持通过dnsPolicy标记每个Pod配置不同的DNS策略: None:表示空的DNS设置,这种方式一般用于想要自定义DNS配置的场景,而且,往往需要和dnsConfig配合一起使用达到自定义DNS的目的。 Default:从运行所在的节点继承名称解析配置
获取集群证书 功能介绍 该API用于获取指定集群的证书信息。 接口约束 该接口适用于1.13及以上集群版本。 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{project_id}/clusters/{cluster_id}/clustercert
工作负载异常:实例驱逐异常(Evicted) 驱逐原理 当节点出现异常时,为了保证工作负载的可用性,Kubernetes会通过驱逐机制(Eviction)将该节点上的Pod调离异常节点。 目前Kubernetes中存在两种Eviction机制,分别由kube-controller-manager
CCE AI套件(NVIDIA GPU) 插件介绍 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 是 object 插件基础配置参数
节点管理最佳实践 本文将为您介绍与节点管理相关的最佳实践,包括节点创建、管理和维护等方面,从而更好地满足业务需求。 场景分类 相关最佳实践 创建节点相关实践 制作CCE节点自定义镜像 创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 选择合适的节点数据盘大小