检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
升级集群的流程和方法 云容器引擎(CCE)严格遵循社区一致性认证,每年发布3个Kubernetes版本,每个版本发布后提供至少24个月的维护周期,CCE保证维护周期内的Kubernetes版本的稳定运行。 为了保障您的服务权益,请您务必在维护周期结束之前升级您的Kubernete
Overlay模式是在节点网络基础上通过隧道封装构建的独立网络,拥有自己独立的IP地址空间、交换或者路由的实现。VXLAN协议是目前最流行的Overlay网络隧道协议之一。 路由模式采用VPC路由表的方式与底层网络相结合,能够更加便捷地连接容器和主机,在性能上会优于Overlay的隧道封装。
runc符号链接挂载与容器逃逸漏洞预警公告(CVE-2021-30465) 漏洞详情 业界安全研究人员披露runc符号链接挂载与容器逃逸漏洞(CVE-2021-30465),攻击者可通过创建恶意Pod,利用符号链接以及条件竞争漏洞,可挂载宿主机目录至容器中,最终可能会导致容器逃逸。目前漏洞细节、POC已公开,风险高。
6-r0、v1.28.4-r0及以上。 选择某个企业项目后,节点将会创建在该企业项目下。您可以通过企业项目服务(EPS)管理集群及其他资源(节点、ELB、以及节点的安全组等)。了解更多企业项目相关信息,请查看企业管理。 登录方式 密码 用户名默认为“root”,请输入登录节点的密码,并确认密码。
设置对象存储挂载参数 本章节主要介绍如何设置对象存储的挂载参数。您可以在PV中设置挂载参数,然后通过PVC绑定PV,也可以在StorageClass中设置挂载参数,然后使用StorageClass创建PVC,动态创建出的PV会默认带有StorageClass中设置的挂载参数。 前提条件
GPU故障处理 前提条件 如需将GPU事件同步上报至AOM,集群中需安装云原生日志采集插件,您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件 当GPU显卡出现异常时,系统会将出现问题的GPU设备进行隔离,详细事件如表1所示。 表1 GPU插件隔离事件 事件原因 详细信息
kube-prometheus-stack插件实例调度失败如何解决? 问题现象 安装kube-prometheus-stack插件时, 插件状态一直处于“部分就绪”,查看插件的prometheus实例事件中提示“0/x nodes are available: x node(s)
GPU虚拟化概述 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。
重置节点 操作场景 您可以通过重置节点修改节点的配置,比如修改节点操作系统、登录方式等。 重置节点会重装节点操作系统,并重新安装节点上Kubernetes软件。如果您在使用过程中修改了节点上的配置等操作导致节点不可用,可以通过重置节点进行修复。 约束与限制 v1.13及以上版本的CCE
Volcano调度器版本发布记录 表1 Volcano调度器版本记录 插件版本 支持的集群版本 更新特性 1.16.8 v1.25 v1.27 v1.28 v1.29 v1.30 v1.31 支持CCE v1.31集群 优化超节点资源调度能力 1.15.10 v1.23 v1.25
表1 关键参数说明 参数 描述 volume.beta.kubernetes.io/storage-class 文件存储类型,当前支持标准文件协议类型(nfs-rw)。 name 创建的PVC名称。 accessModes 只支持ReadWriteMany,不支持ReadWriteOnce。
ServiceAccount Token安全性提升说明 Kubernetes 1.21以前版本的集群中,Pod中获取Token的形式是通过挂载ServiceAccount的Secret来获取Token,这种方式获得的Token是永久的。该方式在1.21及以上的版本中不再推荐使用,并且根据社区版本迭代策略,在1
卸载Volcano插件或关闭混合部署开关不会影响节点上已有的出口网络带宽保障设置。如需关闭该特性,请关闭“网络隔离”开关。 使用带宽限速有可能造成协议栈缓存积压。对于UDP等无反压机制的协议场景,可能出现有丢包、ENOBUFS等问题。 使用带宽限速会增加离线业务得不到带宽的风险,极端场景可能会出现业务因为带宽不足异常、Pod健康检查失败等问题。
基础配置 集群ID 集群ID为集群唯一标识,集群创建后自动生成,无需用户主动指定 参数名 取值范围 默认值 是否允许修改 作用范围 uid uuid格式,36位长度,由小写字母、数字、中划线(-)组成 无 支持初始化时配置,不支持后续修改 CCE Standard/CCE Turbo
插件异常问题排查 在插件安装、升级、更改配置等过程中出现异常问题时,控制台通常会提示相应的错误码。您可以根据错误码查找对应的问题,查看问题原因和解决方案。本文介绍常见错误码及其问题原因和解决方案。 资源冲突 问题现象 安装插件时,出现“内部错误”,错误码为CCE.03500001。
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
示例:某部门权限设计及配置 概述 随着容器技术的快速发展,原有的分布式任务调度模式正在被基于Kubernetes的技术架构所取代。云容器引擎(Cloud Container Engine,简称CCE)是高度可扩展的、高性能的企业级Kubernetes集群,支持社区原生应用和工具。
删除/退订节点 操作场景 当您不再需要该节点继续工作时,请您在节点列表进行删除按需节点或退订包年/包月节点的标准化操作,以免带来不符合预期的效果。 在CCE集群中删除/退订节点会将该节点以及节点内运行的业务都销毁,请您在操作前提前进行排水和数据备份,确保正常业务运行不受影响。 注意事项
开启云原生混部 前提条件 已创建一个CCE Standard集群或CCE Turbo集群,且版本满足以下要求: v1.23集群:v1.23.9-r0及以上 v1.25集群:v1.25.4-r0及以上 集群中已安装1.10.0及以上版本的Volcano插件。 约束与限制 开启云原生
设置资源配额及限制 Kubernetes在一个物理集群上提供了多个虚拟集群,这些虚拟集群被称为命名空间。命名空间可用于多种工作用途,满足多用户、多环境、多应用的使用需求,通过为每个命名空间配置包括CPU、内存、Pod数量等资源的额度可以有效限制资源滥用,从而保证集群的可靠性,更多信息请参见资源配额。