检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点监控 如果您需要监控节点的资源使用情况,可以前往“监控中心 > 节点”页面查看。该页面提供了指定集群下所有节点的综合信息,以及单个节点的详细监控数据,包括CPU/内存使用率、网络流入/流出速率、磁盘读/写IO等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择
低版本内核的CentOS节点反复创删应用时偶现cgroup kmem泄露问题 故障现象 CentOS 7.6节点内核低于3.10.0-1062.12.1.el7.x86_64的场景下(主要为1.17.9版本集群),反复创建应用时出现cgroup kmem泄露,导致节点内存有空余,但是无法创建新的
在CCE集群中使用密钥Secret的安全配置建议 当前CCE已为secret资源配置了静态加密,用户创建的secret在CCE的集群的etcd里会被加密存储。当前secret主要有环境变量和文件挂载两种使用方式。不论使用哪种方式,CCE传递给用户的仍然是用户配置时的数据。因此建议:
使用kubectl部署带云硬盘存储卷的工作负载 操作场景 云硬盘创建或导入CCE后,可以在工作负载中挂载云硬盘。 云硬盘不支持跨可用区挂载。在挂载前,您可以使用 kubectl get pvc 命令查询当前集群所在分区下可用PVC。 约束与限制 如下配置示例适用于Kubernetes
使用kubectl部署带对象存储卷的无状态工作负载 操作场景 对象存储卷创建或导入CCE后,可以在工作负载中挂载对象存储卷。 约束与限制 如下配置示例适用于Kubernetes 1.13及以下版本的集群。 操作步骤 请参见通过kubectl连接集群,使用kubectl连接集群。 执行如下命令
使用Kubernetes默认GPU调度 CCE支持在容器中使用GPU资源。 前提条件 创建GPU类型节点,具体请参见创建节点。 集群中需要安装GPU插件,且安装时注意要选择节点上GPU型号对应的驱动,具体请参见CCE AI套件(NVIDIA GPU)。 在v1.27及以下的集群中使用默认
参考:Jenkins对接Kubernetes集群的RBAC 前提条件 集群需要开启RBAC。 场景一:基于namespace的权限控制 新建ServiceAccount和role,然后做rolebinding # kubectl create ns dev # kubectl -n
解析外部域名很慢或超时,如何优化配置? 工作负载的容器内的resolv.conf文件,示例如下: 其中: nameserver:DNS服务器的IP地址,此处为coredns的ClusterIP。 search:域名的搜索列表,此处为Kubernetes的常用后缀。 ndots:“.
变更集群规格 操作场景 当前集群管理规模可支持管理的用户节点个数不能满足用户诉求,可通过“变更集群规格”功能来扩大使用的用户节点个数。 约束限制 单控制节点的集群不允许变更到1000节点及以上。 变更集群规格不支持修改控制节点数量。 变更集群规格目前只支持扩容到更大规格,不支持降低集群规格
云原生监控插件升级检查异常处理 检查项内容 在集群升级过程中,云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时,存在兼容性问题,需检查该插件是否开启了grafana的开关。 解决方案 由于云原生监控插件在3.9.0之后的版本,不再聚合grafana的能力,因此升级前需要重新安装开源版本
工作负载异常:实例无法写入数据 Pod事件 Pod所在的节点文件系统损坏,新建的Pod无法成功在/var/lib/kubelet/device-plugins/.xxxxx写入数据,Pod通常会出现以下类似事件: Message: Pod Update Plugin resources
高频常见问题 集群管理 CCE集群创建失败的原因与解决方法? 集群的管理规模和控制节点的数量有关系吗? 当集群状态为“不可用”时,如何排查解决? 节点及节点池 集群可用但节点状态为“不可用”如何解决? 如何收集CCE集群中节点的日志? thinpool磁盘空间耗尽导致容器或节点异常时
集群网络配置 节点最少绑定容器网卡数 节点最少绑定容器网卡数,保障节点最少有多少张容器网卡绑定在节点上,支持数值跟百分比两种配置方式。 参数名 取值范围 默认值 是否允许修改 作用范围 nic-minimum-target 0-256 10 允许 CCE Turbo 节点最少绑定容器网卡数
创建使用自定义指标的HPA策略 Kubernetes默认的HPA策略只支持基于CPU和内存的自动伸缩,在复杂的业务场景中,仅使用CPU和内存使用率指标进行弹性伸缩往往无法满足日常运维需求。通过自定义指标配置工作负载HPA策略,可以根据业务自身特点,通过更多指标实现更灵活的弹性配置。
使用kubectl自动创建文件存储 当前SFS文件存储处于售罄状态,暂时无法使用存储类自动创建PVC。 约束与限制 如下配置示例适用于Kubernetes 1.13及以下版本的集群。 操作步骤 请参见通过kubectl连接集群,使用kubectl连接集群。 执行如下命令,配置名为“
模板格式不正确,无法删除模板实例? 问题现象 若上传的模板中包含不正确或者不兼容的资源,会导致安装模板失败,类似下图: 此时模板实例无法正常工作。如果您尝试在界面上删除,可能会出现deletion failed的报错,模板实例仍在列表中: 解决方法 您可以使用kubectl命令删除残留的模板实例
集群与节点池配置管理检查 检查项内容 检查当前集群中网络组件配置(eni)中节点预热容器网卡回收阈值(nic-max-above-warm-target)是否超过允许设置的最大值。 解决方案 根据错误信息确认受影响的范围,例如: configuration check failed
管理自定义资源 自定义资源定义(Custom Resource Definition,CRD) 是对Kubernetes API的扩展,当默认的Kubernetes资源无法满足业务需求时,您可以通过CRD对象来定义新的资源类别。 根据CRD的定义,您可以在集群中创建自定义资源(Custom
出口网络带宽保障 出口网络带宽保障通过设置网络优先级实现,具有如下优点: 平衡在线业务与离线业务对出口网络带宽的使用,保证在线业务有足够的网络带宽,在线业务触发阈值时,压缩离线业务带宽使用。 在线业务所占用的网络资源较少时,离线业务可使用更多带宽;在线业务所占用的网络资源较多时,降低离线业务资源占用量
工作负载异常:存储卷无法挂载或挂载超时 排查思路 EVS存储卷挂载异常 SFS Turbo存储卷挂载异常 SFS存储卷挂载异常 存储卷挂载超时 EVS存储卷挂载异常 问题现象 问题根因 解决方案 在有状态工作负载上挂载EVS存储卷,但无法挂载卷并超时。 节点在可用区1,而要挂载的磁盘在可用区