检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
原生Kubernetes调度器只能基于资源的申请值进行调度,然而Pod的真实资源使用率,往往与其所申请资源的Request/Limit差异很大,这直接导致了集群负载不均的问题: 集群中的部分节点,资源的真实使用率远低于资源申请值的分配率,却没有被调度更多的Pod,这造成了比较大的资源浪费。 集群中的另外一些节点
节点的CPU非空闲时间所占的平均比例。 工作负载CPU使用率 = 工作负载各个Pod中CPU使用率的平均值 Pod CPU使用率 = Pod实际使用的CPU核数 / 业务容器CPU核数限制值之和(未配置限制值时采用节点总量) 内存使用率 节点内存使用率 = 节点的内存使用量除以节点的内存总量。
Kubernetes调度器可以发现集群中新创建且尚未被调度到节点上的Pod,并负责将未调度的Pod指派到一个合适的节点上运行。在同一个集群中可以使用多个不同的调度器,kube-scheduler调度器是Kubernetes社区提供的集群默认调度器,CCE同时还支持增强的Volcano调度器,提供了高性能任务
ccount的Secret来获取Token,这种方式获得的Token是永久的。该方式在1.21及以上的版本中不再推荐使用,并且根据社区版本迭代策略,在1.25及以上版本的集群中,ServiceAccount将不会自动创建对应的Secret。 1.21及以上版本的集群中,直接使用TokenRequest
资源基础监控包含CPU/内存/磁盘等指标数据,您可以全面监控集群的健康状态和负荷程度,具体请参见监控概述。您可以在CCE控制台从集群、节点、工作负载等维度查看这些监控指标数据,也可以在AOM中查看。 自定义指标 CCE支持采集应用程序中的自定义指标并上传到AOM,为您提供个性化的监控服务。您可以根据特定业务需求
CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.19 v1.28 v1.29 v1.30 修复nvidia-container-toolkit CVE-2024-0132容器逃逸漏洞
解决方案 问题场景一:插件状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“插件中心”处查看并处理处于异常状态的插件。 图1 查看插件状态 问题场景二:集群升级的目标版本已经不支持该插件 升级前检查出现以下报错: addon [***] does not support
利用Kubernetes原生的特性可以实现简单的灰度发布或蓝绿发布,比如:通过修改Service的selector中决定服务版本的label的值来改变Service后端对应的Pod,实现让服务从一个版本直接切换到另一个版本,从而实现蓝绿发布。如果您的灰度或蓝绿发布需求较复杂,可以
了集群数据。此外,集群中的其他核心组件也会缓存集群中的各种资源,并监听这些资源的变化。 因此,集群资源数据量过大,会导致控制平面持续处于资源高水位状态,超过承载能力时就会出现集群过载现象。 客户端查询数据量过大:如发起大量LIST请求,或单个LIST请求查询大量数据。 假设客户端通过Field
密钥项键值导入:将密钥中某个键的值导入作为某个环境变量的值。 变量名称:工作负载中的环境变量名称,可自定义,默认为密钥中选择的键名。 变量/变量引用:选择一个密钥及需要导入的键名,将其对应的值导入为工作负载环境变量。 例如将mysecret这个密钥中“username”的值导入,作为工作
Nvidia驱动:填写Nvidia驱动的下载链接,请根据GPU节点的显卡型号选择驱动。 其余参数可保持默认,详情请参见gpu-beta(gpu-device-plugin)。 单击“安装”,安装插件的任务即可提交成功。 创建GPU节点。 在左侧菜单栏选择“节点管理”,单击右上角“创建节点”,在弹出的页面中配置节点的参数。
使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
用率等等。而这些数据的监控能力Kubernetes也没有自己实现,而是通过其他项目来扩展Kubernetes的能力。 Prometheus是一套开源的系统监控报警框架,能够采集丰富的Metrics(度量数据),目前已经基本是Kubernetes的标准监控方案。 Metrics S
#待排水节点的K8s名称,可以使用kubectl get node命令查询 force: true timeout: 0 nodeName:表示待排水的节点,参数值为Kubernetes中的节点名称,而不是控制台上的节点名称。 Kubernetes中的节点名称可以使用kubectl
云原生监控插件将在CCE集群中采集exporter暴露的指标,通过Prometheus RemoteWrite的方式,将数据写入至AOM实例。 监控中心将基于AOM实例中存储的指标,提供多维度数据洞察、仪表盘的功能。 云原生监控插件也提供了基于RemoteWrite对接三方云原生监控平台的能力,将集群内的监控指标通过Bearer
镜像中的EntryPoint默认命令。 解决方案 查看Pod的配置,确定Pod中容器的配置是否符合预期。具体操作,请参见Pod配置查看方法。 排查环境变量中的某一个Key是否存在拼写错误时,您可以参考以下方法。以command拼写成commnd为例,说明拼写问题排查方法。 在执行kubectl
个独立的集群访问凭证(kubeconfig或X509证书),该凭证包含了用户身份及授权信息,以便其可以连接到相应的集群并执行授权范围内的操作。这种方式可以确保不同用户之间的隔离和安全性,同时也方便了管理和授权。但该凭证的有效时间一般为固定值,当持有该凭证的员工离职或已授权的凭证疑
欠费说明 您在使用云服务时,系统会在订单的结算周期结束后生成账单并执行扣款。如果结算时账户余额不足,您的账户将进入欠费状态。欠费后,可能会影响云服务资源的正常运行,请及时充值。 欠费影响 华为云为客户提供充分的时间进行续费与充值,当您的包年/包月资源到期未续订或按需资源欠费时会依
配置项键值导入:将配置项中某个键的值导入作为某个环境变量的值。 变量名称:工作负载中的环境变量名称,可自定义,默认为配置项中选择的键名。 变量/变量引用:选择一个配置项及需要导入的键名,将其对应的值导入为工作负载环境变量。 例如将cce-configmap这个配置项中“SPECIAL_
节点journald检查异常处理 检查项内容 检查节点上的journald状态是否正常。 解决方案 请登录该节点,执行systemctl is-active systemd-journald命令查询journald服务运行状态。若回显状态异常,请执行systemctl restart