华为云用户手册

云容器引擎 CCE-创建CCE Turbo集群时如何设置IPv6服务网段:IPv6介绍

IPv6介绍 IPv6地址 IPv6地址采用128位二进制表示，是IPv4地址长度的4倍。因此IPv4地址的十进制格式不再适用，IPv6采用了十六进制来表示，将128位二进制数转换为32位十六进制数，每4位十六进制数（不区分大小写）为一组，每组以冒号“:”隔开，可以分为8组。 IPv6地址存在多种省略写法： 0位省略：如果每个冒号分组中存在以0开头的，则可以将0位省略，多个0连续时可省略多个。例如以下IPv6地址均是等价的。 ff01:0d28:03ee:0000:0000:0000:0000:0c23 ff01:d28:3ee:0000:0000:0000:0000:c23 ff01:d28:3ee:0:0:0:0:c23 双冒号省略：如果以十六进制表示的IPv6地址中间依然存在很多个全为0的分组，可以把连续全为0的分组压缩成双冒号"::"。但为保证唯一性，这种压缩方式只能使用一次，即一个IPv6地址中只能出现一次双冒号"::"。例如：双冒号省略前双冒号省略后 ff01:d28:3ee:0:0:0:0:c23 ff01:d28:3ee::c23 0:0:0:0:0:0:0:1 ::1 0:0:0:0:0:0:0:0 :: IPv6地址段 IPv6地址段通常采用CIDR（无类别域间路由选择）表示法，通常用斜杠（/）后跟一个数字表示，即格式为“IPv6地址/前缀长度”。此处前缀长度与IPv4地址段的掩码作用类似，用数字来表示网络部分所占用的二进制位数，可将IPv6地址分为网络地址和主机地址两部分。而前缀长度指定了网络部分占用的位数，剩余位数则是主机地址部分，可以更加方便和灵活地表示不同的地址段。例如，fc00:d28::/32表示一个前缀长度为32位的IPv6地址段，则在该网段中分配地址时，前32位（以二进制计算，此处即为fc00:d28）为网络地址，后96位则为可用的主机地址。

云容器引擎 CCE 网络规划
云容器引擎 CCE-集群可用但节点状态为“不可用”如何解决？:排查项一：节点负载过高

排查项一：节点负载过高问题描述：集群中节点连接异常，多个节点报写入错误，业务未受影响。问题定位：登录CCE控制台，进入集群，在不可用节点所在行单击“监控”。单击“监控”页签顶部的“查看更多”，前往运维管理页面查看历史监控记录。当节点cpu和内存负载过高时，会导致节点网络时延过高，或系统OOM，最终展示为不可用。解决方案：建议迁移业务，减少节点中的工作负载数量，并对工作负载设置资源上限，降低节点CPU或内存等资源负载。将集群中对应的cce节点进行数据清理。限制每个容器的CPU和内存限制配额值。对集群进行节点扩容。您也可以重启节点，请至E CS 控制台对节点进行重启，重启方法请参见如何重启弹性云服务器？。增加节点，将高内存使用的业务容器分开部署。重置节点，详情请参见重置节点。节点恢复为可用后，工作负载即可恢复正常。

云容器引擎 CCE
云容器引擎 CCE-集群可用但节点状态为“不可用”如何解决？:排查项五：检查安全组规则中是否包含Master和Node互通的安全组策略

排查项五：检查安全组规则中是否包含Master和Node互通的安全组策略请检查安全组规则中是否包含Master和Node互通的安全组策略。已有集群添加节点时，如果子网对应的VPC新增了扩展网段且子网是扩展网段，要在控制节点安全组（即集群名称-cce-control-随机数）中添加如下三条安全组规则，以保证集群添加的节点功能可用（新建集群时如果VPC已经新增了扩展网段则不涉及此场景）。安全的详细说明请参见集群安全组规则配置

云容器引擎 CCE
云容器引擎 CCE-集群可用但节点状态为“不可用”如何解决？:排查项七：内部组件是否正常

排查项七：内部组件是否正常登录不可用节点对应的弹性云服务器。执行以下命令判断paas组件是否正常。 systemctl status kubelet 执行成功，可查看到各组件的状态为Active，如下图：若服务的组件状态不是Active，执行如下命令：重启命令根据出错组件指定，如canal组件出错，则命令为：systemctl restart canal 重启后再查看状态：systemctl status canal 若执行失败，请执行如下命令，查看monitrc进程的运行状态。 ps -ef | grep monitrc 若存在此进程，请终止此进程，进程终止后会自动重新拉起。 kill -s 9 `ps -ef | grep monitrc | grep -v grep | awk '{print $2}'`

云容器引擎 CCE
云容器引擎 CCE-集群可用但节点状态为“不可用”如何解决？:排查项八：DNS地址配置错误

排查项八： DNS地址配置错误登录节点，在日志/var/log/cloud-init-output.log中查看是否有域名解析失败相关的报错。 cat /var/log/cloud-init-output.log | grep resolv 如果回显包含如下内容则说明无法解析该域名。 Could not resolve host: test.obs.cn-north-4.myhuaweicloud.com; Unknown error 在节点上ping上一步无法解析的域名，确认节点上能否解析此域名。 ping test.obs.cn-north-4.myhuaweicloud.com 如果不能，则说明DNS无法解析该地址。请确认/etc/resolv.conf文件中的DNS地址与配置在VPC的子网上的DNS地址是否一致，通常是由于此DNS地址配置错误，导致无法解析此域名。请修改VPC子网DNS为正确配置，然后重置节点。如果能，则说明DNS地址配置没有问题，请排查其他问题。

云容器引擎 CCE
云容器引擎 CCE-集群可用但节点状态为“不可用”如何解决？:排查项十：排查Docker服务是否正常

排查项十：排查Docker服务是否正常执行以下命令确认docker服务是否正在运行： systemctl status docker 若执行失败或服务状态非active，请确认docker运行失败原因，必要时可提交工单联系技术支持。执行以下命令检查当前节点上所有容器数量： docker ps -a | wc -l 若命令卡死、执行时间过长或异常容器数过多（1000以上），请确认外部是否存在重复不断地创删负载现象，在大量容器频繁创删过程中有可能出现大量异常容器且难以及时清理。在此场景下可考虑停止重复创删负载或采用更多的节点去分摊负载，一般等待一段时间后节点会恢复正常，必要情况可执行docker rm {container_id}手动清理异常容器。

云容器引擎 CCE
云容器引擎 CCE-集群可用但节点状态为“不可用”如何解决？:排查思路

排查思路以下排查思路根据原因的出现概率进行排序，建议您从高频率原因往低频率原因排查，从而帮助您快速找到问题的原因。如果解决完某个可能原因仍未解决问题，请继续排查其他可能原因。排查项一：节点负载过高排查项二：弹性云服务器是否删除或故障排查项三：弹性云服务器能否登录排查项四：安全组是否被修改排查项五：检查安全组规则中是否包含Master和Node互通的安全组策略排查项六：检查磁盘是否异常排查项七：内部组件是否正常排查项八：DNS地址配置错误排查项九：检查节点中的vdb盘是否被删除排查项十：排查Docker服务是否正常排查项十一：包周期节点退订

云容器引擎 CCE
云容器引擎 CCE-集群可用但节点状态为“不可用”如何解决？:排查项二：弹性云服务器是否删除或故障

排查项二：弹性云服务器是否删除或故障确认集群是否可用。登录CCE控制台，确定集群是否可用。若集群非可用状态，如错误等，请参见当集群状态为“不可用”时，如何排查解决？。若集群状态为“运行中”，而集群中部分节点状态为“不可用”，请执行2。登录ECS控制台，查看对应的弹性云服务器状态。若弹性云服务器状态为“已删除”：请在CCE中删除对应节点，再重新创建节点。若弹性云服务器状态为“关机”或“冻结”：请先恢复弹性云服务器，约3分钟后集群节点可自行恢复。若弹性云服务器出现故障：请先重启弹性云服务器，恢复故障。若弹性云服务器状态为“可用”：请参考排查项七：内部组件是否正常登录弹性云服务器进行本地故障排查。

云容器引擎 CCE
云容器引擎 CCE-集群可用但节点状态为“不可用”如何解决？:使用NPD插件排查故障

使用NPD插件排查故障 CCE提供节点故障检测NPD插件，NPD插件从1.16.0版本开始增加了大量检查项，能对节点上各种资源和组件的状态检测，帮助发现节点故障。强烈建议您安装该插件，如已安装请查看插件版本并升级到1.16.0及以上版本。安装NPD插件后，当节点出现异常时，控制台上可以查看到指标异常。您还可以在节点事件中查看到NPD上报的事件，根据事件信息可以定位故障。表1 故障事件说明故障事件说明 OOMKilling 检查oom事件发生并上报。可能原因：用户在ECS侧误操作卸载数据盘。处理建议：排查项一：节点负载过高。 TaskHung 检查taskHung事件发生并上报 KernelOops 检查内核0指针panic错误 ConntrackFull 检查连接跟踪表是否满 FrequentKubeletRestart 检测kubelet频繁重启 FrequentDockerRestart 检测docker频繁重启 FrequentContainerdRestart 检测containerd频繁重启 CRIProblem 检查容器CRI组件状态 KUBELETProblem 检查Kubelet状态 NTPProblem 检查ntp服务状态 PIDProblem 检查Pid是否充足 FDProblem 检查文件句柄数是否充足 MemoryProblem 检查节点整体内存是否充足 CNIProblem 检查容器CNI组件状态 KUBEPROXYProblem 检查Kube-proxy状态 ReadonlyFilesystem 检查系统内核是否有Remount root filesystem read-only错误。可能原因：用户在ECS侧误操作卸载数据盘、节点vdb盘被删除。处理建议：排查项六：检查磁盘是否异常排查项九：检查节点中的vdb盘是否被删除 DiskReadonly 检查系统盘、docker盘、kubelet盘是否只读可能原因：用户在ECS侧误操作卸载数据盘、节点vdb盘被删除。处理建议：排查项六：检查磁盘是否异常排查项九：检查节点中的vdb盘是否被删除 DiskProblem 检查磁盘使用量与关键逻辑磁盘挂载检查系统盘、docker盘、kubelet盘磁盘使用率，检查docker盘、kubelet盘是否正常挂载在虚拟机上。 PIDPressure 检查PID是否充足。处理建议：PID不足时可调整PID上限，请参见修改节点进程 ID数量上限kernel.pid_max。 MemoryPressure 检查容器可分配空间（allocable）内存是否充足 DiskPressure 检查kubelet盘和docker盘的磁盘使用量及inodes使用量。处理建议：扩容数据盘，请参见节点磁盘扩容。

云容器引擎 CCE
云容器引擎 CCE-CCE节点事件中一直出现“镜像回收失败”告警如何解决？:解决方法

解决方法登录节点上执行以下命令，过滤出告警提示的容器，确认是否处于exited状态。其中{containerId}需要替换为告警中提到的容器ID。节点使用docker运行时： docker ps -a | grep {containerId} 节点使用containerd运行时： crictl ps -a | grep {containerId} 如果您确认容器已不再使用，请执行以下命令，彻底清除处于exited状态的容器。其中{containerId}需要替换为告警中提到的容器ID。节点使用docker运行时： docker rm {containerId} 节点使用containerd运行时： crictl rm {containerId} 删除问题容器后，kubelet下次回收镜像可以正常进行。

云容器引擎 CCE
云容器引擎 CCE-CCE节点事件中一直出现“镜像回收失败”告警如何解决？:问题现象

问题现象节点事件中，重复出现“镜像回收失败”告警，告警示例如下： wanted to free xx bytes, but freed xx bytes space with errors in image deletion: rpc error: code = Unknown desc = Error response from daemon: conflict: unable to remove repository reference "imageName:tag" (must force) - container 966fce58d9b8 is using its referenced image 50a7aa6fa56a 例如上述告警中提到的容器ID(966fce58d9b8)已经停止运行了，但没有完全被删除。

云容器引擎 CCE
云容器引擎 CCE-CCE节点事件中一直出现“镜像回收失败”告警如何解决？:问题根因

问题根因 kubelet根据imageGCHighThresholdPercent和imageGCLowThresholdPercent两个配置参数定期回收未在使用中的镜像。如果在节点上使用docker或crictl命令行启动容器，那么在容器停止后，它将处于退出状态，但并未完全删除，这意味着该容器仍然引用着容器镜像。由于kubelet无法感知到非Pod产生的容器，也就无法感知到该容器镜像被引用，因此当kubelet尝试删除容器镜像时，容器运行时会因为容器镜像仍处于被引用的状态而拦截kubelet的删除行为，导致kubelet在定期回收镜像过程中出现失败。

云容器引擎 CCE
云容器引擎 CCE-节点池扩容失败:无法获取节点池使用的密钥对

无法获取节点池使用的密钥对当扩容节点池失败时，事件中包含Ecs.0314错误，表明无法查询到节点池使用的密钥对，导致创建云服务器失败。 ...call fsp to query keypair fail, error code : Ecs.0314, reason is : the keypair *** does not match the user_id ***... 该问题可能由以下原因引起：原因一：创建节点池时使用的密钥对被删除。原因二：用户使用私有密钥对创建节点池，而其他用户无法使用该私有密钥对创建节点，导致节点池扩容失败。解决方案：对于原因一引起的扩容失败，您可以创建一个新的密钥对，并使用该密钥对创建新的节点池。对于原因二引起的扩容失败，该节点池只能通过私有密钥对的创建者进行扩容。您也可以使用其他密钥对创建一个新的节点池。

云容器引擎 CCE 节点池
云容器引擎 CCE-节点池扩容失败:KMS密钥ID非法

KMS密钥ID非法当扩容节点池失败时，事件中包含Ecs.0912错误： {"error":{"message":"encrypted key id [***] is invalid.","code":"Ecs.0912"}} 该问题可能由以下原因引起：原因一：创建节点池输入的KMS密钥ID不存在。原因二：创建节点池输入的KMS密钥ID为他人密钥，但他人未给您授权。解决方案：对于原因一引起的扩容失败，确保您输入密钥ID存在。对于原因二引起的扩容失败，请使用已给您授权的共享密钥ID。

云容器引擎 CCE 节点池
云容器引擎 CCE-节点池扩容失败:排查思路

排查思路请根据节点池扩容失败的具体事件信息确定问题原因，如表1所示。表1 节点池扩容失败事件信息问题原因解决方案 ...call fsp to query keypair fail, error code : Ecs.0314, reason is : the keypair *** does not match the user_id ***... 该问题可能由以下原因引起：创建节点池时使用的密钥对被删除。创建节点池时使用的密钥对为私有密钥对，其他用户无法使用该密钥对创建节点。无法获取节点池使用的密钥对 {"error":{"message":"encrypted key id [***] is invalid.","code":"Ecs.0912"}} 该问题可能由以下原因引起：创建节点池输入的KMS密钥ID不存在。创建节点池输入的KMS密钥ID为他人密钥，但他人未给您授权。 KMS密钥ID非法

云容器引擎 CCE 节点池
云容器引擎 CCE-kube-prometheus-stack插件实例调度失败如何解决？:解决方案

解决方案查看集群中插件遗留的存储卷对应的云硬盘可用区，并在集群中添加该可用区的节点。登录CCE控制台，单击集群名称进入集群。在左侧列表中选择“容器存储”，切换至“存储卷”页签，单击PVC（名为pvc-prometheus-server-0）对应的卷名称跳转至云硬盘详情页面。图2 存储卷在基本信息中查看云硬盘的可用区。图3 云硬盘详情在CCE控制台左侧列表中选择“节点管理”，单击“创建节点”，创建一个该可用区的节点。图4 创建指定可用区的节点节点创建完成后，工作负载调度器会自动尝试重新调度。

云容器引擎 CCE
云容器引擎 CCE-kube-prometheus-stack插件实例调度失败如何解决？:问题原因

问题原因当出现以上报错内容，说明集群中已存在prometheus实例需要的存储卷，但该存储卷对应的云硬盘未满足与节点同一可用区的要求，导致调度失败。这可能是由于集群并非首次安装kube-prometheus-stack插件引起。首次安装kube-prometheus-stack插件时，prometheus实例会延迟绑定云硬盘类型的存储卷（PVC名为pvc-prometheus-server-0），创建该云硬盘时可用区会自动与实例运行的节点所在可用区保持一致。例如实例运行的节点可用区为可用区1，则该云硬盘的可用区也为可用区1。当集群中卸载kube-prometheus-stack插件时，prometheus实例绑定的存储卷不会被一起删除，保留了已有的监控数据。当再次安装插件时，集群的节点可能已经进行过删除新建，如果集群中不存在可用区1的节点，则会出现该问题导致prometheus实例无法运行。如果grafana实例出现同样的问题，也可能是由于上述原因引起。

云容器引擎 CCE
云容器引擎 CCE-集群删除失败：安全组中存在残留资源:操作步骤

操作步骤复制报错信息中的资源ID，进入到VPC服务的安全组界面，根据ID过滤安全组。单击进入安全组详情界面，选择关联实例页签。查询该安全组关联的其他资源，例如服务器、弹性网卡实例、辅助弹性网卡实例等。您可以将残留的资源（辅助弹性网卡会自动删除）删除。以删除残留的弹性网卡为例，您需要前往弹性网卡界面将上一步查询到的网卡删除。可以用ID过滤需要删除的弹性网卡，也可以通过集群ID的名称过滤需要删除的弹性网卡。清理完成后，前往安全组页面确认该安全组已经没有关联的实例，然后前往CCE控制台即可正常删除集群。

云容器引擎 CCE 集群删除
云容器引擎 CCE-集群删除失败：安全组中存在残留资源:故障现象

故障现象删除集群失败，报错信息如下： Expected HTTP response code [200 202 204 404] when accessing [DELETE https://vpc.xxx.com/v2.0/security-groups/46311976-7743-4c7c-8249-ccd293bcae91], but got 409 instead {"code":"VPC.0602","message":"{\"NeutronError\":{\"message\": \"Security Group 46311976-7743-4c7c-8249-ccd293bcae91 in use.\",\"type\":\"SecurityGroupInUse\",\"detail\":\"\"}}"}

云容器引擎 CCE 集群删除
云容器引擎 CCE-容器使用SCSI类型云硬盘偶现IO卡住如何解决？:问题原理

问题原理 BUS 0上热插PCI设备后，Linux内核会多次遍历挂载在BUS 0上的所有PCI-Bridge，且PCI-Bridge在被更新期间无法正常工作。在此期间，若设备使用的PCI-Bridge被更新，由于内核缺陷，该设备会认为PCI-Bridge异常，设备进入故障模式进而无法正常工作。如果此时前端正要写PCI配置空间让后端处理磁盘IO，那么这个写配置空间操作就可能会被剔除，导致后端接收不到通知去处理IO环上的新增请求，最终表现为前端IO卡住。

云容器引擎 CCE 节点运行
云容器引擎 CCE-如何修改CCE集群名称？

如何修改CCE集群名称？集群创建完成后，支持修改集群名称。登录CCE控制台，单击集群名称进入集群。在集群信息页面，单击集群名称后的。图1 修改集群名称输入新的集群名称后，单击“保存”。集群名称不能与其他集群的名称或原名相同。集群名称修改后，如果集群相关的周边服务已使用集群名称命名实例或者将集群名称作为某个配置项，则不会同步修改。例如集群日志采集时仍会使用集群修改前的名称。父主题：集群运行

云容器引擎 CCE 集群运行
云容器引擎 CCE-工作负载异常：一直处于创建中:排查项一：cce-pause镜像是否被误删除

排查项一：cce-pause镜像是否被误删除问题现象创建工作负载时报如下错误，显示无法创建sandbox，原因是拉取cce-pause:3.1镜像失败。 Failed to create pod sandbox: rpc error: code = Unknown desc = failed to get sandbox image "cce-pause:3.1": failed to pull image "cce-pause:3.1": failed to pull and unpack image "docker.io/library/cce-pause:3.1": failed to resolve reference "docker.io/library/cce-pause:3.1": pulling from host **** failed with status code [manifests 3.1]: 400 Bad Request 问题原因该镜像为创建节点时添加的系统镜像，如果手动误删除该镜像，会导致工作负载Pod一直无法创建。解决方案：登录该问题节点。手动解压节点上的cce-pause镜像安装包。 tar -xzvf /opt/cloud/cce/package/node-package/pause-*.tgz 导入镜像。 Docker节点： docker load -i ./pause/package/image/cce-pause-*.tar Containerd节点： ctr -n k8s.io images import --all-platforms ./pause/package/image/cce-pause-*.tar 镜像导入成功后，即可正常创建工作负载。

云容器引擎 CCE
云容器引擎 CCE-工作负载异常：一直处于创建中:排查项二：集群开启CPU管理策略后变更节点规格

排查项二：集群开启CPU管理策略后变更节点规格集群开启CPU管理策略（绑核）时，kubelet启动参数中会将CPU Manager的策略设置为static，允许为节点上具有某些资源特征的pod赋予增强的CPU亲和性和独占性。用户如果直接在ECS控制台对CCE节点变更规格，会由于变更前后CPU信息不匹配，导致节点上的负载无法重新拉起，也无法创建新负载。登录CCE节点（弹性云服务器）并删除cpu_manager_state文件。删除命令示例如下： rm -rf /mnt/paas/kubernetes/kubelet/cpu_manager_state 重启节点或重启kubelet，重启kubelet的方法如下： systemctl restart kubelet 此时重新拉起或创建工作负载，已可成功执行。解决方式链接：CCE节点变更规格后，为什么无法重新拉起或创建工作负载？

云容器引擎 CCE
云容器引擎 CCE-如何根据集群规格调整插件配额？:CCE集群弹性引擎

CCE集群弹性引擎 CCE集群弹性引擎插件可根据Pod资源运行的节点负载，自动调整集群中的节点数量。请根据集群的规模，合理调整插件实例数和容器CPU/内存配额。表3 CCE集群弹性引擎插件配额建议节点数量实例数 CPU申请值 CPU限制值内存申请值内存限制值 50 2 1000m 1000m 1000Mi 1000Mi 200 2 4000m 4000m 2000Mi 2000Mi 1000 2 8000m 8000m 8000Mi 8000Mi 2000 2 8000m 8000m 8000Mi 8000Mi

云容器引擎 CCE 模板插件
云容器引擎 CCE-如何根据集群规格调整插件配额？:Volcano调度器

Volcano调度器集群规格调整后，Volcano调度器所需的资源需要根据集群的规模进行自定义调整。小于100个节点，可使用默认配置，即CPU的申请值为500m，限制值为2000m；内存的申请值为500Mi，限制值为2000Mi。高于100个节点，每增加100个节点（10000个Pod），建议CPU的申请值增加500m，内存的申请值增加1000Mi；CPU的限制值建议比申请值多1500m，内存的限制值建议比申请值多1000Mi。申请值推荐计算公式： CPU申请值：计算“目标节点数 * 目标Pod规模”的值，并在表4中根据“集群节点数 * Pod规模”的计算值进行插值查找，向上取最接近规格的申请值及限制值。例如2000节点和2w个Pod的场景下，“目标节点数 * 目标Pod规模”等于4000w，向上取最接近的规格为700/7w（“集群节点数 * Pod规模”等于4900w），因此建议CPU申请值为4000m，限制值为5500m。内存申请值：建议每1000个节点分配2.4G内存，每1w个Pod分配1G内存，二者叠加进行计算。（该计算方法相比表4中的建议值会存在一定的误差，通过查表或计算均可）即：内存申请值 = 目标节点数/1000 * 2.4G + 目标Pod规模/1w * 1G。例如2000节点和2w个Pod的场景下，内存申请值 = 2 * 2.4G + 2 * 1G = 6.8G

云容器引擎 CCE 模板插件
云容器引擎 CCE-如何根据集群规格调整插件配额？:CCE 容器存储（Everest）

CCE 容器存储（Everest）集群规格调整后，Everest插件规格需要根据集群的规模和PVC数量进行自定义调整。其中，插件组件的CPU和内存申请值可根据集群节点规模和PVC数量不同进行调整，配置建议请参见表2。非典型场景下，限制值一般估算公式如下： everest-csi-controller： CPU限制值：200及以下节点规模设置为250m；1000节点规模设置为350m；2000节点规模设置为500m。内存限制值 = （200Mi + 节点数 * 1Mi + PVC数 * 0.2Mi）* 1.2 everest-csi-driver： CPU限制值：200及以下节点规模设置为300m；1000节点规模设置为500m；2000节点规模设置为800m。内存限制值 = 200及以下节点规模设置为300Mi；1000节点规模设置为600Mi；2000节点规模设置为900Mi。表2 典型场景组件限制值建议配置场景 everest-csi-controller组件 everest-csi-driver组件节点数量 PV/PVC数量插件实例数 CPU（限制值同申请值）内存（限制值同申请值） CPU（限制值同申请值）内存（限制值同申请值） 50 1000 2 250m 600Mi 300m 300Mi 200 1000 2 250m 1Gi 300m 300Mi 1000 1000 2 350m 2Gi 500m 600Mi 1000 5000 2 450m 3Gi 500m 600Mi 2000 5000 2 550m 4Gi 800m 900Mi 2000 10000 2 650m 5Gi 800m 900Mi

云容器引擎 CCE 模板插件
云容器引擎 CCE-如何根据集群规格调整插件配额？:CoreDNS域名解析

CoreDNS域名解析 CoreDNS所能提供的域名解析QPS与CPU消耗成正相关，集群中的节点/容器数量增加时，CoreDNS实例承受的压力也会同步增加。请根据集群的规模，合理调整插件实例数和容器CPU/内存配额。表1 CoreDNS插件配额建议节点数量推荐配置实例数 CPU申请值 CPU限制值内存申请值内存限制值 50 2500QPS 2 500m 500m 512Mi 512Mi 200 5000QPS 2 1000m 1000m 1024Mi 1024Mi 1000 10000QPS 2 2000m 2000m 2048Mi 2048Mi 2000 20000QPS 4 2000m 2000m 2048Mi 2048Mi

云容器引擎 CCE 模板插件
云容器引擎 CCE-服务发布到ELB，ELB的后端为何会被自动删除？

服务发布到ELB，ELB的后端为何会被自动删除？问题描述：服务发布到ELB，工作负载已正常，但服务的pod端口未及时发布出来，ELB里的后端会被自动删除。问题解答：创建ELB时候，如果ELB监控检查失败，后端服务器组会删除，而且后续服务正常以后也不会添加。如果是更新已有的SVC时则不会删除。添加删除节点的时候，由于集群状态的改变，可能会引起集群内的Node访问方式的改变，为保证服务正常运行，所以ELB会进行一次刷新操作，这个过程类似于更新ELB。修复建议：优化应用，加快应用的启动速度。父主题：网络指导

云容器引擎 CCE 网络指导
云容器引擎 CCE-工作负载异常：实例调度失败:排查项六：检查临时卷使用量

排查项六：检查临时卷使用量 0/7 nodes are available: 7 Insufficient ephemeral-storage. 节点临时存储不足。检查Pod是否限制了临时卷的大小，如下所示，当应用程序需要使用的量超过节点已有容量时会导致无法调度，修改临时卷限制或扩容节点磁盘可解决此问题。 apiVersion: v1 kind: Pod metadata: name: frontend spec: containers: - name: app image: images.my-company.example/app:v4 resources: requests: ephemeral-storage: "2Gi" limits: ephemeral-storage: "4Gi" volumeMounts: - name: ephemeral mountPath: "/tmp" volumes: - name: ephemeral emptyDir: {}

云容器引擎 CCE 工作负载异常
云容器引擎 CCE-工作负载异常：实例调度失败:检查项九：检查节点上调度的Pod是否过多

检查项九：检查节点上调度的Pod是否过多 0/1 nodes are available: 1 Too many pods.表示节点上调度的Pod过多，超出可调度的最大实例数。创建节点时，在“高级配置”中可选择设置“最大实例数”参数，设置节点上可以正常运行的容器 Pod 的数目上限。该数值的默认值随节点规格浮动，您也可以手动设置。图1 最大实例数您可以在“节点管理”页面，查看节点的“容器组(已分配/总额度)”参数列，检查节点已调度的容器是否达到上限。若已达到上限，可通过添加节点或修改最大实例数的方式解决。您可通过以下方式修改“最大实例数”参数：默认节点池中的节点：通过重置节点时修改“最大实例数”。自定义节点池中的节点：可修改节点池配置参数中的max-pods参数。详情请参见节点池配置管理。图2 查看容器数

云容器引擎 CCE 工作负载异常

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线