检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
您已经将一块节点数据盘导入本地持久卷存储池,详情请参见在存储池中导入持久卷。 约束与限制 本地持久卷仅在集群版本 >= v1.21.2-r0 时支持,且需要everest插件版本>=2.1.23,推荐使用>=2.1.23版本。 移除节点、删除节点、重置节点和缩容节点会导致与节点关联的本地持久存储卷类型的P
当前检查项包括以下内容: 检查插件状态是否正常 检查插件是否支持目标版本 解决方案 问题场景一:插件状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“插件中心”处查看并处理处于异常状态的插件。 图1 查看插件状态 问题场景二:集群升级的目标版本已经不支持该插件 升级前检查出现以下报错: addon
建议您将集群中GPU节点的不可调度的污点去掉,以便GPU插件驱动能够正常安装,同时您需要安装高版本的GPU驱动。 如果您的集群中有非GPU的容器,可以通过亲和、反亲和策略将这个容器不调度到GPU节点上。 方案2: 建议您安装高版本的GPU驱动,通过kubectl更新GPU插件的配置,增加配置如下: tolerations:
要为该IPv6双栈网卡的Pod配置共享带宽。 约束限制 仅支持CCE Turbo集群,且需要满足以下条件: 集群已开启IPv6双栈。 集群版本为v1.23.8-r0、v1.25.3-r0及以上。 共享带宽可加入的IPv6网卡数受限于租户配额,目前默认为20;配额约束请参见使用限制。
节点运行时检查异常处理 检查项内容 该告警通常发生在低版本集群升级到v1.27及以上集群。CCE不建议您在1.27以上版本集群中继续使用docker,并计划在未来移除对docker的支持。 解决方案 若您的节点的运行时非containerd,您可通过节点重置功能重置节点的运行时为containerd。
适配方案:删除相关资源,并通过Helm创建。 Release history数量限制更新 为避免release 历史版本无限增加,当前release升级默认只保留最近10个历史版本。 更多变化和详细说明请参见Helm官方文档 Helm v2与Helm v3的区别:https://v3.helm
问题背景 客户询问在创建负载时指定部署的容器名称、pod名称、namespace名称,在同一个命名空间内访问该容器的FQDN是什么? 全限定域名:FQDN,即Fully Qualified Domain Name,同时带有主机名和域名的名称。(通过符号“.”) 例如:主机名是
协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。 已安装Volcano插件,详情请参见Volcano调度器。 组调度介绍 Gang
tag [镜像名称1:版本名称1] [镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] [镜像名称1:版本名称1]:等待上传的本地镜像名称和版本名称。 [镜像仓库地址]:可在SWR控制台上查询。 [组织名称]:您在SWR控制台创建的组织名称。 [镜像名称2:版本名称2]:SWR中显示的镜像名称和镜像版本。
图2 开启CPU Burst 约束与限制 集群版本:CCE Turbo集群且集群版本为v1.23.5-r0及以上。 OS版本:Huawei Cloud EulerOS 2.0。 集群中需要安装Volcano 1.9.0及以上版本的插件,且开启混合部署开关。 操作步骤 登录CCE控制台,单击集群名称进入集群。
容量,导致存储容量的浪费。为了更加经济合理地利用存储容量,CCE支持在创建PVC时动态创建SFS Turbo子目录,实现不同工作负载共享使用SFS Turbo。 前提条件 您已经创建好一个集群,并且在该集群中安装2.3.23及以上版本的CCE容器存储(Everest)。 如果您需
普通容器,Cgroups隔离 集群版本 由于Kubernetes社区版本迭代较快,新版本中通常包含许多Bug修复和新功能,而旧版本会根据时间推移逐渐淘汰。建议您在创建集群时,选择当前CCE支持的最新商用版本。 关于CCE集群版本的更新策略,请参考Kubernetes版本策略。 集群网络模型
节点池运行时检查异常处理 检查项内容 该告警通常发生在低版本集群升级到v1.27及以上集群。CCE不建议您在1.27以上版本集群中继续使用docker,并计划在未来移除对docker的支持。 解决方案 若您的节点池的运行时非containerd,您可通过更新节点池功能将节点池的运行时修改为containerd。
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量
这些也是和业务直接相关。 使用云服务 云容器引擎CCE:提供高可靠高性能的企业级容器应用管理服务,支持Kubernetes社区原生应用和工具,简化云上自动化容器运行环境搭建。 弹性云服务器ECS:一种可随时自助获取、可弹性伸缩的云服务器,帮助用户打造可靠、安全、灵活、高效的应用
工作负载亲和/反亲和调度是Kubernetes提供的任务调度方式,可以使用工作负载作为亲和对象,灵活地将新建的工作负载调度到与其相关或无关的节点上,可以有效地提高集群的利用率。 例如,通信频繁的前端应用Pod和后端应用Pod可优先调度到同一个节点或同一个可用区,减少网络延迟。工作负载亲和/反亲和的示意如下:
yaml CCE在1.23版本集群开始Ingress切换到networking.k8s.io/v1版本,之前版本集群使用networking.k8s.io/v1beta1。v1版本与v1beta1版本的区别请参见关于CCE v1.23集群中Ingress API版本升级的说明。 共享型负载均衡(公网访问)示例
作负载批量滚动的时间间隔。 图1 存活/就绪探针 设置滚动升级:在高级配置中选择“升级策略”,升级方式设置为“滚动升级”,逐步用新版本实例替换旧版本实例。 本示例中配置最大无效实例数(maxUnavailable)为2%,最大浪涌(maxSurge)为2%,用于控制工作负载的滚动
为hpa-example镜像添加标签。 docker tag [镜像名称1:版本名称1] [镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] [镜像名称1:版本名称1]:请替换为您本地所要上传的实际镜像的名称和版本名称。 [镜像仓库地址]:可在SWR控制台上查询,登录指令中末尾的域名即为镜像仓库地址。
olumeClaim),创建有状态工作负载(StatefulSet)。 约束与限制 如下配置示例适用于Kubernetes 1.13及以下版本的集群。 操作步骤 参照使用kubectl自动创建对象存储中操作创建对象存储卷,并获取PVC名称。 请参见通过kubectl连接集群,使用kubectl连接集群。