检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
kube-prometheus-stack插件实例调度失败如何解决? 问题现象 安装kube-prometheus-stack插件时, 插件状态一直处于“部分就绪”,查看插件的prometheus实例事件中提示“0/x nodes are available: x node(s)
重置节点 操作场景 您可以通过重置节点修改节点的配置,比如修改节点操作系统、登录方式等。 重置节点会重装节点操作系统,并重新安装节点上Kubernetes软件。如果您在使用过程中修改了节点上的配置等操作导致节点不可用,可以通过重置节点进行修复。 约束与限制 v1.13及以上版本的CCE
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一
升级操作系统 当CCE发布新版本的操作系统镜像时,已有节点无法自动升级,您可以手动进行批量升级。 注意事项 该操作会通过重置节点的方式升级操作系统,节点上已运行的工作负载业务可能会由于单实例部署、可调度资源不足等原因产生中断,请您合理评估升级风险,并挑选业务低峰期进行,或对关键业务应用设置PDB策略(Pod
约束限制: 数量不得大于待创建节点数; 若已配置ids参数,则无需配置count和eip参数。 count Integer 参数解释: 要动态创建的弹性IP个数。 约束限制: count参数与eip参数必须同时配置。 取值范围: 不涉及 默认取值: 不涉及 eip NodeEIPSpec
约束限制: 数量不得大于待创建节点数; 若已配置ids参数,则无需配置count和eip参数。 count Integer 参数解释: 要动态创建的弹性IP个数。 约束限制: count参数与eip参数必须同时配置。 取值范围: 不涉及 默认取值: 不涉及 eip NodeEIPSpec
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
基础配置 集群ID 集群ID为集群唯一标识,集群创建后自动生成,无需用户主动指定 参数名 取值范围 默认值 是否允许修改 作用范围 uid uuid格式,36位长度,由小写字母、数字、中划线(-)组成 无 支持初始化时配置,不支持后续修改 CCE Standard/CCE Turbo
约束限制: 数量不得大于待创建节点数; 若已配置ids参数,则无需配置count和eip参数。 count 否 Integer 参数解释: 要动态创建的弹性IP个数。 约束限制: count参数与eip参数必须同时配置。 取值范围: 不涉及 默认取值: 不涉及 eip 否 NodeEIPSpec
NUMA亲和性调度 NUMA节点是Non-Uniform Memory Access(非统一内存访问)架构中的一个基本组成单元,每个节点包含自己的处理器和本地内存,这些节点在物理上彼此独立,但通过高速互连总线连接在一起,形成一个整体系统。NUMA节点能够通过提供更快的本地内存访问
约束限制: 数量不得大于待创建节点数; 若已配置ids参数,则无需配置count和eip参数。 count Integer 参数解释: 要动态创建的弹性IP个数。 约束限制: count参数与eip参数必须同时配置。 取值范围: 不涉及 默认取值: 不涉及 eip NodeEIPSpec
迁移节点 您可以将同一个集群下节点在节点池间进行迁移,具体迁移场景如表1。 表1 迁移场景 迁移场景 是否支持迁移 操作步骤 原节点池 待迁移的目标节点池 自定义节点池 默认节点池(DefaultPool) 支持迁移 将自定义节点池中的节点迁移到默认节点池 默认节点池(DefaultPool)
监控运维配置 CCE为您提供监控应用及资源的能力,支持采集各项指标及事件等数据以分析应用健康状态,您可以通过“配置中心 > 监控运维配置”统一调整监控运维参数。 您需要开通监控中心,以使用监控运维配置的所有功能。 监控配置 采集配置 系统预置采集:可视化管理云原生监控插件的监控采集任务。详情请参见管理监控采集任务。
有状态负载(StatefulSet) 有状态负载(StatefulSet) Deployment控制器下的Pod都有个共同特点,那就是每个Pod除了名称和IP地址不同,其余完全相同。需要的时候,Deployment可以通过Pod模板创建新的Pod;不需要的时候,Deployment就可以删除任意一个Pod。
快速创建Kubernetes集群 背景信息 本章节将演示如何快速创建一个CCE集群,部分配置采用默认或最简配置,详细创建方法请参见创建CCE集群。 创建集群 登录CCE控制台。 如果您的账号还未创建过集群,请在引导页面中单击CCE集群下的“购买集群”,并选择CCE Standard集群。
kubernetes.io/dockerconfigjson 1 6d20h paas.elb cfe/secure-opaque 1
亲和与反亲和调度 在守护进程集(DaemonSet)中讲到使用nodeSelector选择Pod要部署的节点,其实Kubernetes还支持更精细、更灵活的调度机制,那就是亲和(affinity)与反亲和(anti-affinity)调度。 Kubernetes支持节点和Pod两
增强型CPU管理策略 在Kubernetes默认提供的CPU管理策略中有none和static两种: none: 默认不开启CPU管理策略,表示现有的调度行为。 static:开启静态绑核的CPU管理策略,允许为节点上具有某些资源特征的 Pod(Guaranteed pod)赋予增强的
配置网络策略(NetworkPolicy)限制Pod访问的对象 网络策略(NetworkPolicy)是Kubernetes设计用来限制Pod访问的对象,相当于从应用的层面构建了一道防火墙,进一步保证了网络安全。NetworkPolicy支持的能力取决于集群的网络插件的能力。 默
配置节点故障检测策略 节点故障检查功能依赖node-problem-detector(简称:npd),npd是一款集群节点监控插件,插件实例会运行在每个节点上。本文介绍如何开启节点故障检测能力。 前提条件 集群中已安装CCE节点故障检测插件。 开启节点故障检测 登录CCE控制台,单击集群名称进入集群。