检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
副本数:副本数为1时插件不具备高可用能力,仅用于验证场景,商用场景请根据集群规格配置多个副本数。 CPU/内存配额:组件的资源配额主要受集群中总容器数量和伸缩策略数量影响。通常场景下,建议集群中每5000个容器配置CPU 500m、内存1000Mi,每1000条伸缩策略配置CPU 100m、内存500Mi。
在GPU服务容器中发现一些新增的文件core.*,在以前的部署中没有出现过。 问题定位 GPU插件的驱动版本较低,单独下载驱动安装后正常。 工作负载中未声明需要gpu资源。 建议方案 节点安装了gpu-beta(gpu-device-plugin)插件后,会自动安装nvidia-smi命令行工具。引起部署GPU服务
用资源较少,但处理能力有限。建议在集群内容器数目不超过100时使用。 小规格(2000容器以内):建议在集群中的容器数目不超过2000时使用。 中规格(5000容器以内):建议在集群中的容器数目不超过5000时使用。 大规格(超过5000容器):建议集群中容器数目超过5000时使用此规格。
600Mi;2000节点规模设置为900Mi。 表1 典型场景组件限制值建议 配置场景 everest-csi-controller组件 everest-csi-driver组件 节点数量 PV/PVC数量 插件实例数 CPU(限制值同申请值) 内存(限制值同申请值) CPU(限制值同申请值)
GPU卡-XGPU设备数量 个 每张GPU卡的GPU虚拟设备的数量 GPU卡-调度策略 数字 0为显存隔离算力共享模式 1为显存算力隔离模式 2为默认模式表示当前卡还没被用于XGPU设备分配 GPU卡-不健康的XGPU设备数量 个 每张GPU卡的不健康的GPU虚拟化设备的数量 容器显存分配量
当节点宕机时间超过一定的时间间隔后,开始驱逐宕机节点上的Pod,默认为5min。 node-eviction-rate:每秒需要排空的节点数量,默认为0.1,即每10s从一个节点驱逐Pod。 secondary-node-eviction-rate:第二档的排空节点的速率。当集群
解决方法请参考无法备份HostPath类型存储卷。 集群外资源 自建镜像仓库。 可迁移至容器镜像服务SWR。 非容器化的数据库。 可迁移至云数据库服务RDS。 对象存储等非本地存储。 可迁移至对象存储服务OBS等云存储服务。 迁移流程如图1所示,对于集群外资源您可根据实际需求进行选择性迁移。
当节点数已到达集群规模上限、所属节点池的节点数上限或该规格的节点数上限时,将不会触发指标扩容。 当节点数量、CPU、内存达到节点扩容资源上限时,将不会触发指标扩容。 执行动作:达到触发条件后所要执行的动作。 自定义:为节点池增加指定数量的节点。 自动计算:当达到触发条件时,自动扩容节点,将分配率恢复到触发条件以下。计算公式如下:
高频常见问题 集群管理 CCE集群创建失败的原因与解决方法? 集群的管理规模和控制节点的数量有关系吗? 当集群状态为“不可用”时,如何排查解决? 节点及节点池 集群可用但节点状态为“不可用”如何解决? 如何收集CCE集群中节点的日志? thinpool磁盘空间耗尽导致容器或节点异常时,如何解决?
对于存量的集群节点,请按以下方法进行修复: 针对Ubuntu操作系统,建议您将openssh升级到官方发布的修复版本(1:8.9p1-3ubuntu0.10),详情请参见官方链接。 针对Huawei Cloud EulerOS 2.0操作系统,建议您将openssh升级到官方发布的修复版本(openssh-8
行计数,以确定其相应拓扑域中的Pod数量 matchLabels: app: nginx maxSkew: 1 # 表示在给定的拓扑类型中,任意两个拓扑域上匹配的Pod数量所允许的最大差异 topologyKey:
检查集群的历史升级记录,要求您的集群原始版本满足升级到目标集群版本的条件。 解决方案 该问题一般由于您的集群从比较老的版本升级而来,升级风险较大,建议您优先考虑集群迁移 若您仍然想要升级该集群,请您提交工单,联系技术支持人员进行评估。 父主题: 升级前检查异常问题排查
行状态。若回显状态异常,请执行systemctl restart NetworkManager命令后重新查询状态。 如果上述操作无法解决,建议您进行重置节点操作,参考重置节点。如果您不想重置节点,请联系技术支持人员恢复配置文件后进行升级。 父主题: 升级前检查异常问题排查
补丁版本发布记录 索引 v1.30版本 v1.29版本 v1.28版本 v1.27版本 v1.25版本 v1.23版本 v1.21版本 v1.19版本 v1.30版本 表1 v1.30补丁版本发布说明 CCE集群补丁版本号 Kubernetes社区版本 特性更新 优化增强 安全漏洞修复
Standard/CCE Turbo 负载均衡器对外端口: 取值范围:1~65535。 部分端口为高危端口,默认被屏蔽,如21端口。 配置建议: 同集群的路由支持对接到相同的监听器 不同集群的路由不支持对接到相同的监听器;不支持对接到手动创建的监听器,会出现端口冲突的报错 安全策略
的比例。 Pod状态数量趋势:节点上在不同的时间段分别处于不可用、未就绪、运行中、已完成或其他的状态Pod数量之和。 Pod数量变化趋势:节点上所有的Pod在不同的时间段的数量。 其他指标 节点平均负载:节点的平均负载是指在一定时间内,节点上正在运行的进程数量的平均值。即节点上正
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
集群网络配置参数说明 参数名称 参数说明 虚拟私有云 显示集群所在虚拟私有云。 虚拟私有云(Virtual Private Cloud,简称VPC)可以为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境。您可以自由配置VPC内的IP地址段、子网、安全组等子服务,也
列表。 更改驱动版本后,需要重启节点才能生效。 对于Linux 5.x内核系统:Huawei Cloud EulerOS 2.0建议使用470及以上版本驱动;Ubuntu 22.04建议使用515及以上版本驱动。 插件安装完成后,GPU 虚拟化和节点池驱动配置请前往“配置中心 >