检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
设置工作负载升级策略 在实际应用中,升级是一个常见的场景,Deployment、StatefulSet和DaemonSet都能够很方便地支撑应用升级。 设置不同的升级策略,有如下两种。 RollingUpdate:滚动升级,即逐步创建新Pod再删除旧Pod,为默认策略。 Recr
管理节点污点 污点(Taint)能够使节点排斥某些特定的Pod,从而避免Pod调度到该节点上。 通过控制台管理节点污点 在CCE控制台上同样可以管理节点的污点,且可以批量操作。 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签
io/disk-volume-type指定云硬盘类型比较繁琐,希望只通过StorageClassName指定。 部分用户是从自建Kubernetes或其他Kubernetes服务切换到CCE,已经写了很多应用的YAML文件,这些YAML文件中通过不同StorageClassName指定不同类型存储,迁移到CCE上时
要注意Pod的副本数不要超过节点数量,否则会导致一个节点上调度了多个Pod,Pod启动时端口冲突无法创建。例如上面例子中的nginx,如果服务数为2,并部署在只有1个节点的集群上,就会有一个Pod无法创建,查询Pod日志会发现是由于端口占用导致nginx无法启动。 请避免在同一个
kube-prometheus-stack插件实例调度失败如何解决? 问题现象 安装kube-prometheus-stack插件时, 插件状态一直处于“部分就绪”,查看插件的prometheus实例事件中提示“0/x nodes are available: x node(s)
nginx.ingress.kubernetes.io/auth-tls-verify-depth: "1" ... 创建此Ingress服务,将会出现以下拦截信息: 父主题: 通过模板包部署Nginx Ingress Controller
ScaleNodePoolRequestBody(); List<String> listSpecScaleGroups = new ArrayList<>(); listSpecScaleGroups.add("default"); ScaleNodePoolSpec
metadata: name: tfjob-simple namespace: kubeflow spec: tfReplicaSpecs: Worker: replicas: 2 restartPolicy: OnFailure template:
Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano
如何根据集群规格调整插件配额? 当您的集群规格调整后,可能需要根据集群规格相应地调整插件资源配额,以确保插件实例能够正常运行。例如,如果您将集群规格从50节点调整为200节点或以上,则需要增加插件CPU、内存配额,防止插件实例因需要调度过多的节点而出现OOM等异常。因此,在调整集
源使用状况,进而识别可优化的应用。 成本洞察关键能力 丰富的容器成本覆盖范围:支持成本分析的费用包括CCE集群管理费用、CCE集群关联的ECS和EVS资源费用。 基于计费账单的精准成本计算:使用真实账单进行成本分摊计算,精准统计集群成本。 灵活的成本分摊策略:支持集群、命名空间、
CPU和内存使用率。 云原生监控插件:使用Prometheus提供基础资源使用指标,需将Prometheus注册为Metrics API的服务,详见通过Metrics API提供基础资源指标。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧
务运行。 登录CCE控制台,单击集群名称进入集群控制台。 单击“节点管理”,找到更新驱动的节点池,单击“节点列表”。 单击节点名称跳转到ECS界面。 单击右上角“重启”。 步骤三:验证驱动升级是否成功 节点完成重启后,请稍等几分钟,等待驱动安装。 登录节点,查看节点上的驱动是否更新。
开启云原生混部 前提条件 已创建一个CCE Standard集群或CCE Turbo集群,且版本满足以下要求: v1.23集群:v1.23.9-r0及以上 v1.25集群:v1.25.4-r0及以上 集群中已安装1.10.0及以上版本的Volcano插件。 约束与限制 开启云原生
集群升级前检查 功能介绍 集群升级前检查 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{project_id}/clusters/{cluster_id}/operation/precheck 表1 路径参数 参数 是否必选 参数类型 描述
"*****", "driver_init_image_version" : "2.1.30", "ecsEndpoint" : "*****", "everest_image_version" : "2.1.30",
设置节点亲和调度(nodeAffinity) Kubernetes在调度工作负载时支持将节点作为亲和对象,将工作负载调度至具有指定标签和标签值的节点上。例如,某些节点支持使用GPU算力,则可以使用节点亲和调度,确保高性能计算的Pod最终运行在GPU节点上。 配置节点亲和调度策略
如下: 若您自建的Prometheus同样部署在K8s集群中,可进入Prometheus容器中查看。若您自建的Prometheus部署在虚拟机上,则可跳过本步骤。 kubectl exec -ti -n monitoring prometheus-server-0 -- sh 命令中变量可根据实际情况进行替换:
兼容Kubernetes默认GPU调度模式 开启GPU虚拟化后,工作负载调度GPU时建议使用显存隔离模式(即设置volcano.sh/gpu-mem.128Mi资源)和算显隔离模式(即同时设置volcano.sh/gpu-mem.128Mi和volcano.sh/gpu-core
GPU监控指标说明 CCE AI套件(NVIDIA GPU)插件提供GPU监控指标,并集成了DCGM-Exporter组件(要求插件版本2.7.32+),引入更丰富的GPU可观测性场景。本文介绍CCE AI套件(NVIDIA GPU)插件指标的详细信息。 计费说明 GPU指标作为