检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE集群创建失败的原因与解决方法? 概述 本文主要介绍在CCE集群创建失败时,如何查找失败的原因,并解决问题。 详细信息 集群创建失败的原因包括: ntpd没安装或者安装失败、k8s组件预校验不过、磁盘分区错误等,目前只能尝试重新创建,定位方法请参见定位失败原因。 当前集群规模所需的底层资源不足,请选择其他规模的集群类型后重新创建集群。
le资源,但是该资源不是由插件管理的。 解决方案 手动使用kubectl删除非插件管理的冲突的资源后,重试插件的安装。 安装超时 问题现象 安装/升级插件时,提示安装失败,错误信息显示 timed out。 Release "*****" failed: failed pre-install:
集群配置概览 集群配置中心为您提供集群基础配置的概况及对应的修改入口,包含集群信息、集群配置、集群控制节点可用区和已安装插件多维度的信息概况。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“配置中心”,单击“配置概览”页签。 图1 配置概览 集群信息
检查方式 /usr/bin/python --version echo $? 如果回显值不为0证明检查失败。 解决方案 可优先重置节点或手动安装Python之后再进行升级。 父主题: 升级前检查异常问题排查
数据盘空间分配、安装前/后执行脚本配置。 修改节点池容器引擎、操作系统、安装前/后执行脚本时,修改后的配置仅对新增节点生效,存量节点如需同步配置,需要手动重置存量节点。 修改节点池系统盘/数据盘大小、数据盘空间分配则仅对新增节点生效,即使重置存量节点也无法同步配置。 修改资源标签
package路径。 安装Packer 手动下载并安装HashiCorp Packer,建议参考官方指导执行。 Packer版本要求:packer = 1.10.0 以CentOS 7执行机为例,执行如下命令自动安装packer(以官方指导为准): # 配置Packer的yum源后安装Packer
安全加固 集群节点如何不暴露到公网? 如何配置集群的访问策略 如何获取TLS密钥证书? 如何批量修改集群node节点安全组? 父主题: 网络管理
优点 容器网络和节点网络解耦,不受VPC配额规格、响应速度的限制(如VPC路由条目数、弹性网卡数、创建速度限制)。 支持网络隔离,具体请参见配置网络策略(NetworkPolicy)限制Pod访问的对象。 支持带宽限制。 支持大规模组网,最大可支持2000节点规模。 缺点 由于隧道
行排查。 若确认是kubelet配置异常,请在节点所属的节点池,单击“配置管理”,在kubelet组件配置栏,对kubelet配置进行修改。 节点运行时异常处理-RuntimeOffline 问题根因 通常Docker/Containerd的配置、进程异常等原因导致。 问题现象 Docker组件
选择GPU节点驱动版本 使用GPU加速型云服务器时,需要安装正确的Nvidia基础设施软件,才可以使用GPU实现计算加速功能。在使用GPU前,您需要根据GPU型号,选择兼容配套软件包并安装。 本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。 如何选择GPU节点驱动版本
NPU)是支持容器里使用NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需指定。 flavor 是 表3 object
在CCE集群中部署使用Tensorflow 资源准备 购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取
虚拟机。 在ECS虚拟机上安装kubectl命令行工具。 您可以尝试执行kubectl version命令判断是否已安装kubectl,如果已经安装kubectl,则可跳过此步骤。 本文以Linux环境为例安装和配置kubectl,更多安装方式请参考安装kubectl。 下载kubectl。
安全,建议最小化用户的访问权限。 如果主账号下需要配置多个IAM用户,应合理配置子用户和命名空间的权限。 配置集群权限请参考集群权限(IAM授权)。 设置命名空间权限请参考命名空间权限(Kubernetes RBAC授权)。 配置集群命名空间资源配额限制 应限制每个命名空间能够分
虚拟私有云(Virtual Private Cloud,简称VPC)可以为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境。您可以自由配置VPC内的IP地址段、子网、安全组等子服务,也可以申请弹性带宽和弹性公网IP搭建业务系统。 子网网段 子网是用来管理弹性
详细操作请参考应用拓扑。 修改性能管理配置 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”,单击工作负载名称。 在“性能管理配置”页签中,单击右下角“编辑”修改性能管理配置参数。 参数说明详情请参见4。 父主题: 配置工作负载
步骤二:异构资源配置 单击左侧导航栏的“配置中心”,选择“异构资源配置”页签。 在“GPU配置”中找到“节点池配置”,并选择新增的目标节点池。 参考准备GPU虚拟化资源,选择满足GPU虚拟化要求的驱动,并开启支持GPU虚拟化。 图1 异构资源配置 单击“确认配置”进行保存。 步骤三:创建GPU虚拟化负载并扩容
E会定期同步社区bug,升级CoreDNS插件的版本,建议客户定期升级集群的CoreDNS版本。CCE的插件管理中心提供了CoreDNS的安装及升级功能。您可以定义关注集群中的CoreDNS版本,如果版本可以升级请尽快安排业务无缝升级集群中的CoreDNS组件。 您可以通过以下流程升级集群中的CoreDNS:
控制Pod中容器使用的Sysctl配置。 Pod安全策略开放非安全系统配置示例 节点池管理中可以为相应的节点池配置allowed-unsafe-sysctls,CCE从1.17.17集群版本开始,需要在Pod安全策略的allowedUnsafeSysctls字段中增加相应的配置才能生效,配置详情请参考表1。
许特权逃逸”的配置。 通过配置安全计算模式seccomp,限制容器的系统调用权限,具体配置方法可参考社区官方资料使用 Seccomp 限制容器的系统调用。 通过配置ReadOnlyRootFilesystem的配置,保护容器根文件系统。 如deployment配置如下: apiVersion: