正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
21以及之前的版本,华为云将不再支持新集群创建。若您账号下存在1.21及之前的集群版本,为了保证您的服务权益,建议尽快升级到最新的商用版本。关于如何升级集群,请参见CCE集群升级指导。关于CCE集群的版本机制,请参见Kubernetes版本策略。 父主题: 集群版本公告
组调度(Gang) 组调度(Gang)满足了调度过程中“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件
每个CPU核的使用率 平均负载 / 平均负载反映了CPU资源的竞争情况 值小于1时,说明部分CPU资源在处理请求。 值等于1时,说明所有的CPU资源都在处理请求。 值大于1时,说明有部分线程在等待处理。 内存使用量 字节 不同模式的内存使用情况 内存使用率 百分比 主机内存使用率 磁盘写入速率
部分用户希望能够设置默认的StorageClassName,所有应用都使用默认存储类型,在YAML中不用指定StorageClassName也能按创建默认类型存储。 解决方案 本文介绍在CCE中自定义StorageClass的方法,并介绍设置默认StorageClass的方法,通过不同StorageClassName指定不同类型存储。
IPVS缺陷导致节点上升级CoreDNS后出现概率性解析超时 故障现象 在集群使用IPVS转发的场景下,节点上升级CoreDNS后,可能出现概率性丢包,导致域名解析失败。 问题根因 该问题由IPVS缺陷导致,社区已在IPVS v5.9-rc1版本中修复该问题,详情请参见ipvs:
异构资源配置 GPU配置 GPU虚拟化 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU
对象存储卷挂载设置自定义访问密钥(AK/SK) 背景信息 CCE提供了设置自定义访问密钥的能力,可以让IAM用户使用自己的访问密钥挂载对象存储卷,从而可以对OBS进行访问权限控制(具体请参见OBS不同权限控制方式的区别)。 约束与限制 对象存储卷使用自定义访问密钥(AK/SK)时
使用GPU虚拟化 本文介绍如何使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 单个GPU卡最多虚拟化成20个GPU虚拟设备。
开通监控中心将在集群中安装云原生监控插件,该插件提供监控中心的指标采集功能。开通后,监控中心将采集集群中的指标并上报至AOM实例。本章节介绍如何为集群开通监控中心功能。 开通监控中心后,集群中的指标将上报至AOM实例,AOM针对基础指标免费,自定义指标由AOM服务收费,具体请参考价格详情。
通过静态存储卷使用已有文件存储 文件存储(SFS)是一种可共享访问,并提供按需扩展的高性能文件系统(NAS),适用大容量扩展以及成本敏感型的业务场景。本文介绍如何使用已有的文件存储静态创建PV和PVC,并在工作负载中实现数据持久化与共享性。 前提条件 如果您需要通过命令行创建,需要使用kubectl
使用第三方镜像 操作场景 CCE支持拉取第三方镜像仓库的镜像来创建工作负载。 通常第三方镜像仓库必须经过认证(账号密码)才能访问,而CCE中容器拉取镜像是使用密钥认证方式,这就要求在拉取镜像前先创建镜像仓库的密钥。 前提条件 使用第三方镜像时,请确保Autopilot可以正常访问
参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方式请参见如何获取接口URI中参数。 cluster_id 是 String 集群ID,获取方式请参见如何获取接口URI中参数。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述
计费相关FAQ 索引 可观测性(监控中心、日志中心、告警中心)如何收费? 为什么关闭日志中心后还有收费产生? 可观测性(监控中心、日志中心、告警中心)如何收费? 免费场景 监控中心自身免费使用,监控中心所使用的指标都上报并存储在AOM服务,其中在AOM范畴内的基础指标不收费,存储
操作场景 在创建集群时会选择集群位于某个VPC内,如果VPC规划太小出现没有足够可用IP时,您可以采用VPC扩展网段满足业务扩容需求。本文介绍如何使用VPC扩展网段扩充集群网段。 约束与限制 仅支持v1.21及以上版本的CCE Standard集群和CCE Turbo集群。 扩展网段规划说明
日志中心概述 Kubernetes日志可以协助您排查和诊断问题。本文介绍CCE如何通过多种方式进行Kubernetes日志管理。 CCE提供给您多种方式进行Kubernetes日志管理。 您可以方便地使用CCE 云原生日志采集插件采集应用日志并上报LTS,从而更好地利用LTS日志
设置极速文件存储挂载参数 本章节主要介绍如何设置极速文件存储的挂载参数。极速文件存储仅支持在PV中设置挂载参数,然后通过创建PVC绑定PV。 前提条件 CCE容器存储(Everest)版本要求1.2.8及以上版本。插件主要负责将挂载参数识别并传递给底层存储,指定参数是否有效依赖于底层存储是否支持。
云容器引擎CCE服务提供一键集群诊断能力,包括集群诊断、节点诊断、工作负载诊断、核心插件诊断和外部依赖诊断,可以辅助您定位集群中出现的问题。本文介绍如何在集群中使用集群诊断功能。 前提条件 已获取资源权限 集群版本高于v1.17。 集群处于“运行中”状态。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。
通过动态存储卷使用文件存储 本文介绍如何通过存储类动态创建PV和PVC,并在工作负载中实现数据持久化与共享性。 约束与限制 使用SFS 3.0存储卷时,挂载点不支持修改属组和权限。 使用SFS 3.0存储卷时,创建、删除PVC和PV过程中可能存在时延,实际计费时长请以SFS侧创建、删除时刻为准。
数据,然后上传到AOM上。 图1 ICAgent采集监控指标 负载的自定义指标接口可以在创建时配置。本文将通过一个Nginx应用的示例演示如何上报自定义监控指标到AOM,步骤如下: 准备应用 您需要准备一个应用镜像,该应用需要提供监控指标接口供ICAgent采集,且监控数据需要满足Prometheus的规范。
pod 数量的周期。配置越小弹性伸缩器反应越及时,同时CPU负载也越高 配置建议: 无特殊需求建议保持默认配置 并发数量设置过小可能导致管理器处理响应慢,设置过大会对集群管控面造成压力,产生过载风险 Pod水平伸缩容忍度 此值为目标值与实际值的比值与 1.0 的差值。只有超过此标志所设的阈值时,