检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
插件异常问题排查 在插件安装、升级、更改配置等过程中出现异常问题时,控制台通常会提示相应的错误码。您可以根据错误码查找对应的问题,查看问题原因和解决方案。本文介绍常见错误码及其问题原因和解决方案。 资源冲突 问题现象 安装插件时,出现“内部错误”,错误码为CCE.03500001。
如何使容器重启后所在容器IP仍保持不变? 单节点场景 如果集群下仅有1个节点时,要使容器重启后所在容器IP保持不变,需在工作负载中配置主机网络,在工作负载的yaml中的spec.spec.下加入hostNetwork: true字段。 多节点场景 如果集群下有多个节点时,除进行以
扩展集群容器网段 操作场景 当创建CCE集群时设置的容器网段太小,无法满足业务扩容需求时,您通过扩展集群容器网段的方法来解决。本文介绍如何为集群添加容器网段。 约束与限制 仅支持v1.19及以上版本的“VPC网络”模型集群。 容器网段添加后无法删除,请谨慎操作。 为CCE Standard集群添加容器网段
负载均衡类型Service异常问题排查 负载均衡类型Service通过ELB负载均衡对外提供服务,创建负载均衡类型Service时,支持选择已有的ELB实例或自动创建ELB实例。若选择已有的ELB实例,CCE集群会为Service配置ELB监听器、后端服务器组等资源;若选择自动创
CCE AI套件(NVIDIA GPU)插件使用DCGM-Exporter监控GPU指标 对运维人员来说,实现对Kubernetes的大规模GPU设备可监测能力至关重要。通过监测GPU相关指标能够了解整个集群的GPU使用情况、健康状态、工作负载性能等,从而实现对异常问题的快速诊断
异常排查及解决 无法备份HostPath类型存储卷 HostPath与Local均为本地存储卷,但由于Velero集成的Restic工具无法对HostPath类型的PV进行备份,只支持Local类型,因此需要在原集群中将HostPath类型存储卷替换为Local类型。 Local
云原生成本治理概述 云原生成本治理是基于FinOps理念的容器成本治理解决方案,提供部门维度、集群维度、命名空间维度的成本和资源画像,并通过工作负载资源推荐等优化手段协助企业IT成本管理人员实现容器集群的提效降本诉求。 成本洞察 成本洞察基于真实账单和集群资源用量统计数据,通过自
网络 虚拟私有云 集群下控制节点和用户节点使用的虚拟私有云。 参数名 取值范围 默认值 是否允许修改 作用范围 HostNetwork.vpc 用户租户下存在的VPC ID 无 支持初始化时配置,不支持后续修改 CCE Standard/CCE Turbo 获取方法如下: 方法1
删除/退订节点 操作场景 当您不再需要该节点继续工作时,请您在节点列表进行删除按需节点或退订包年/包月节点的标准化操作,以免带来不符合预期的效果。 在CCE集群中删除/退订节点会将该节点以及节点内运行的业务都销毁,请您在操作前提前进行排水和数据备份,确保正常业务运行不受影响。 注意事项
成本计算模型 工作负载成本计算原理 工作负载成本是由Pod成本聚合而成。 Pod成本:使用监控指标和实际账单作为输入,通过CPU、内存使用量占整体节点资源比例计算出来的成本,结合Pod关联PVC存储的成本。 计算过程中,Pod的使用量为当前采样时刻下申请量(Request)和实际使用量(Real
服务基础配置 服务名称 服务名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 0-253字符 无 创建时可修改 CCE Standard/CCE Turbo 命令空间 服务所在的命名空间 参数名 取值范围 默认值 是否允许修改 作用范围 namespace 0-63字符
为Pod配置固定EIP 使用场景 在云原生网络2.0下,支持为StatefulSet工作负载或直接创建的Pod分配固定的公网IP(EIP)。 约束限制 仅以下指定版本的CCE Turbo集群支持用户配置Pod固定EIP: v1.19集群:v1.19.16-r20及以上版本 v1.21集群:v1
续费概述 续费简介 包年/包月的集群或节点到期后会影响服务正常运行。如果您想继续使用,需要在指定的时间内为集群或节点进行续费,否则集群及节点等资源会自动释放,数据丢失且不可恢复。 续费操作仅适用于包年/包月的集群或节点,按需计费的资源不需要续费,只需要保证账户余额充足即可。 包年
云原生监控插件兼容自建Prometheus 云原生监控插件兼容模式 若您已自建Prometheus,且您的Prometheus基于开源,未做深度定制、未与您的监控系统深度整合,建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控,无需开启“兼容模式”。 卸
通过ELB健康检查设置Pod就绪状态 Pod的就绪状态可与挂载到ELB后端的健康检查联动,在健康检查成功后,将Pod置为就绪。与Pod的strategy.rollingUpdate.maxSurge和strategy.rollingUpdate.maxUnavailable参数配合,可实现负载的优雅滚动升级。
ServiceAccount Token安全性提升说明 Kubernetes 1.21以前版本的集群中,Pod中获取Token的形式是通过挂载ServiceAccount的Secret来获取Token,这种方式获得的Token是永久的。该方式在1.21及以上的版本中不再推荐使用,并且根据社区版本迭代策略,在1
设置容器规格 操作场景 CCE支持在创建工作负载时为添加的容器设置资源的需求量和限制,最常见的可设定资源是 CPU 和内存(RAM)大小。此外Kubernetes还支持其他类型的资源,可通过YAML设置。 申请与限制 在CPU配额和内存配额设置中,申请与限制的含义如下: 申请(R
自定义资源配置 自定义资源版本 自定义资源版本 参数名 取值范围 默认值 是否允许修改 作用范围 apiVersion 无 无 允许 CCE Standard/CCE Turbo 自定义资源是kubernetes 1.17新增的无需改变代码就可以扩展 Kubernetes API
工作负载异常:实例拉取镜像失败 问题定位 当工作负载状态显示“实例未就绪:Back-off pulling image "xxxxx"”,该状态下工作负载实例K8s事件名称为“实例拉取镜像失败”或“重新拉取镜像失败”。查看K8s事件的方法请参见Pod事件查看方法。 排查思路 根据
CCE集群创建失败的原因与解决方法? 概述 本文主要介绍在CCE集群创建失败时,如何查找失败的原因,并解决问题。 详细信息 集群创建失败的原因包括: ntpd没安装或者安装失败、k8s组件预校验不过、磁盘分区错误等,目前只能尝试重新创建,定位方法请参见定位失败原因。 当前集群规模