检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
nalizers字段,如果存在,需要通过如下命令进入命名空间后删除该字段: kubectl edit ns rdbms 集群证书获取方法请参见获取集群证书。 https://x.x.x.x:5443为连接集群的地址。您可以登录CCE控制台,进入集群,查看连接信息的内网地址进行获取。
数据源。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到Grafana,单击“安装”。 设置插件的“规格配置”,您可根据需求调整插件实例的CPU配额和内存配额。 设置插件支持的“参数配置”。 表1 Grafana插件参数配置 参数 参数说明
CCE集群创建失败的原因与解决方法? 概述 本文主要介绍在CCE集群创建失败时,如何查找失败的原因,并解决问题。 详细信息 集群创建失败的原因包括: ntpd没安装或者安装失败、k8s组件预校验不过、磁盘分区错误等,目前只能尝试重新创建,定位方法请参见定位失败原因。 当前集群规模所需的底层资源不足,请选择其他规模的集群类型后重新创建集群。
le资源,但是该资源不是由插件管理的。 解决方案 手动使用kubectl删除非插件管理的冲突的资源后,重试插件的安装。 安装超时 问题现象 安装/升级插件时,提示安装失败,错误信息显示 timed out。 Release "*****" failed: failed pre-install:
数据盘空间分配、安装前/后执行脚本配置。 修改节点池容器引擎、操作系统、安装前/后执行脚本时,修改后的配置仅对新增节点生效,存量节点如需同步配置,需要手动重置存量节点。 修改节点池系统盘/数据盘大小、数据盘空间分配则仅对新增节点生效,即使重置存量节点也无法同步配置。 修改资源标签
检查方式 /usr/bin/python --version echo $? 如果回显值不为0证明检查失败。 解决方案 可优先重置节点或手动安装Python之后再进行升级。 父主题: 升级前检查异常问题排查
单击节点池名称后的“更多 > 配置管理”。 在侧边栏滑出的“配置管理”窗口中,修改“容器引擎Docker/Containerd配置”的image-pull-progress-timeout参数。该参数用于设置镜像拉取的超时时长。 单击“确定”,完成配置操作。 排查项七:无法连接镜像仓库
行排查。 若确认是kubelet配置异常,请在节点所属的节点池,单击“配置管理”,在kubelet组件配置栏,对kubelet配置进行修改。 节点运行时异常处理-RuntimeOffline 问题根因 通常Docker/Containerd的配置、进程异常等原因导致。 问题现象 Docker组件
选择GPU节点驱动版本 使用GPU加速型云服务器时,需要安装正确的Nvidia基础设施软件,才可以使用GPU实现计算加速功能。在使用GPU前,您需要根据GPU型号,选择兼容配套软件包并安装。 本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。 如何选择GPU节点驱动版本
安全,建议最小化用户的访问权限。 如果主账号下需要配置多个IAM用户,应合理配置子用户和命名空间的权限。 配置集群权限请参考集群权限(IAM授权)。 设置命名空间权限请参考命名空间权限(Kubernetes RBAC授权)。 配置集群命名空间资源配额限制 应限制每个命名空间能够分
在CCE集群中部署使用Tensorflow 资源准备 购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取
监控NGINX Ingress控制器指标 在集群中部署使用NGINX Ingress控制器时,打开“开启指标采集”开关后将自动上报NGINX Ingress控制器指标。 前提条件 集群中已安装3.9.5及以上版本云原生监控插件插件。 集群中已安装2.5.4及以上版本的NGINX Ingr
NPU)是支持容器里使用NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需指定。 flavor 是 表3 object
详细操作请参考应用拓扑。 修改性能管理配置 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”,单击工作负载名称。 在“性能管理配置”页签中,单击右下角“编辑”修改性能管理配置参数。 参数说明详情请参见4。 父主题: 配置工作负载
控制Pod中容器使用的Sysctl配置。 Pod安全策略开放非安全系统配置示例 节点池管理中可以为相应的节点池配置allowed-unsafe-sysctls,CCE从1.17.17集群版本开始,需要在Pod安全策略的allowedUnsafeSysctls字段中增加相应的配置才能生效,配置详情请参考表1。
于标签与注解的作用及配置说明,请参见设置标签与注解。 DNS配置:为工作负载单独配置DNS策略,详情请参见工作负载DNS配置说明。 性能管理配置:使用应用性能管理(APM)服务,为JAVA程序提供更精准的问题分析与定位,详情请参见设置性能管理配置。 网络配置: Pod入/出口带宽
效。 安装2.7.2及以上版本的GPU插件时,支持以节点池级别配置XGPU虚拟化开关。 NPU配置 当不开启驱动选择时,无法根据用户诉求指定驱动版本,无法依靠插件进行驱动维护。如从控制台创建NPU节点,控制台会自动补充NPU驱动(用户无法指定版本和类型)安装命令,并在安装完成后自
检查工作负载副本扩容是否正常。 Pod 待机失败 FailedStandBy 次要 检查Pod待机是否成功。 Pod 更新配置失败 FailedReconfig 次要 检查Pod更新配置是否成功。 Pod 激活失败 FailedActive 次要 检查Pod是否激活成功。 Pod 回滚失败 FailedRollback
步骤二:异构资源配置 单击左侧导航栏的“配置中心”,选择“异构资源配置”页签。 在“GPU配置”中找到“节点池配置”,并选择新增的目标节点池。 参考准备GPU虚拟化资源,选择满足GPU虚拟化要求的驱动,并开启支持GPU虚拟化。 图1 异构资源配置 单击“确认配置”进行保存。 步骤三:创建GPU虚拟化负载并扩容
E会定期同步社区bug,升级CoreDNS插件的版本,建议客户定期升级集群的CoreDNS版本。CCE的插件管理中心提供了CoreDNS的安装及升级功能。您可以定义关注集群中的CoreDNS版本,如果版本可以升级请尽快安排业务无缝升级集群中的CoreDNS组件。 您可以通过以下流程升级集群中的CoreDNS: