检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
请您登录CCE控制台,单击集群名称进入集群控制台,在“插件中心”处进行手动卸载,具体插件支持版本以及替换方案可查看帮助文档。 问题场景三:插件配置不满足升级条件,请在插件升级页面升级插件之后重试 升级前检查出现以下报错: please upgrade addon [ ] in the
rs.d/sudoerspaas文件,以获取sudo权限,更新节点上属主和属组为root的组件(例如docker、kubelet等)与相关配置文件。请登录节点执行如下命令,排查文件的可修改性。 lsattr -l /etc/sudoers.d/sudoerspaas /etc/sudoers
导入存储池 创建节点时导入 在创建节点时,在存储配置中可以为节点添加数据盘,选择“作为临时存储卷”导入存储池,详情请参见创建节点。 图1 导入临时卷 手动导入 如果创建节点时没有导入临时存储卷,或当前存储卷容量不够,可以进行手动导入。 前往ECS控制台为节点添加SCSI类型的磁盘。操作步骤详情请参见新增磁盘。
固定值 取值范围: PostCheckTask spec 是 PostcheckResponseSpec object spec是升级后确认的配置信息。 表3 PostcheckResponseSpec 参数 是否必选 参数类型 描述 clusterID 否 String 集群ID clusterVersion
导入存储池 创建节点时导入 在创建节点时,在存储配置中可以为节点添加数据盘,选择“作为持久存储卷”导入存储池,详情请参见创建节点。 手动导入 如果创建节点时没有导入持久存储卷,或当前存储卷容量不够,可以进行手动导入。 前往ECS控制台为节点添加SCSI类型的磁盘。操作步骤详情请参见新增磁盘。
25及以上版本的集群中安装1.0.3版本的OpenKruise插件时,kruise-daemon无法在使用docker容器引擎的节点上运行,请使用containerd容器引擎。 您可以选择以下方案之一进行解决: 方案一:关闭OpenKruise插件的kruise-daemon配置,然后重试集群升级。
NPU)是支持容器里使用NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需指定。 flavor 是 表3 object
的一行,在指定的时间周期运行指定的Job。 任务负载的这种用完即停止的特性特别适合一次性任务,比如持续集成。 创建Job 以下是一个Job配置,其计算π到2000位并打印输出。Job结束需要运行50个Pod,这个示例中就是打印π 50次,并行运行5个Pod,Pod如果失败最多重试5次。
需要已安装Volcano调度器插件,且插件版本不低于1.10.5。 访问Prometheus Prometheus插件安装完成后会在集群中部署一系列工作负载和Service。其中Prometheus的Server端会在monitoring命名空间下以有状态工作负载进行部署。 您可
云容器引擎CCE集群和gpu-beta插件推荐安装的NVIDIA GPU驱动,尚未出现在NVIDIA官方信息中。如果将来有新的官方信息变化,我们将及时跟进帮助您升级修复。 如果您是自行选择安装的NVIDIA GPU驱动或更新过节点上的GPU驱动,请参考上图确认您安装的GPU驱动是否受该漏洞影响。
的差异及适配方案进行排查并做相应的适配验证。 如您短期内切换到 Helm V3 存在困难,可通过后台 Helm 客户端方式继续管理并部署 Helm V2 实例,操作方法请参见通过 Helm V2 客户端部署应用。为了更好地维护您的权益以及更好地获取运维支撑,请您在2022年12月30日前彻底切换至 Helm V3
无状态负载(Deployment) 无状态负载(Deployment) Pod是Kubernetes创建或部署的最小单位,但是Pod是被设计为相对短暂的一次性实体,Pod可以被驱逐(当节点资源不足时)、随着集群的节点崩溃而消失。Kubernetes提供了Controller(控制
21版本的集群升级到v1.23版本,原有已创建的资源不受影响,但新建与编辑场景将会遇到v1beta1 API 版本被拦截的情况。 具体yaml配置结构变更可参考文档通过Kubectl命令行创建ELB Ingress。 父主题: 升级前检查异常问题排查
自动扩容缩容,同时支持多可用区、多实例规格、指标触发和周期触发等多种伸缩模式,满足不同的节点伸缩场景。 前提条件 使用节点伸缩功能前,需要安装CCE集群弹性引擎插件,插件版本要求1.13.8及以上。 Cluster Autoscaler工作原理 Cluster Autoscaler主要流程包括两部分:
格变更成功。 当集群规格变更为1000节点及以上时,为了保证集群性能,集群部分参数值会根据集群的规格进行自动调整,详情请参见修改CCE集群配置。 图2 操作记录 父主题: 管理集群
e。 storageType:云存储的类型,和deleteVolume搭配使用。即deleteVolume和storageType必须同时配置。 说明: bs:EVS云存储 nfs:SFS弹性文件存储 obs:OBS对象存储 [> - efs:SFS Turbo极速文件存储 请求参数
节点的情况。 解决方案: 遇到此类问题时,请合理分配各容器的资源分配量即可解决。 排查项五:工作负载实例不断失败并重新部署 工作负载实例出现不断失败,不断重新部署的情况。 问题分析: pod驱逐后,如果新调度到的节点也有驱逐情况,就会再次被驱逐;甚至出现pod不断被驱逐的情况。
Turbo集群非主机网络容器的流量统计,以及节点内容器联通性健康检查。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需指定。 flavor 是 表2 object 插件规格参数 custom 是 表3 object 插件自定义参数 表2 flavor
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
在CCE集群中部署使用Tensorflow 资源准备 购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取