检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点池异常状态排查 节点池一直在扩容中但“操作记录”里为何没有创建节点的记录? 节点池扩容失败 节点池批量扩缩容节点时,Kubernetes Event事件存在部分缺失 云服务器无法纳管至节点池时如何修改云服务器配置
节点磁盘检查异常处理 检查项内容 当前检查项包括以下内容: 检查节点关键数据盘使用量是否满足升级要求 检查/tmp目录是否存在500MB可用空间 解决方案 节点升级过程中需要使用磁盘存储升级组件包,使用/tmp目录存储临时文件。 问题场景一:Master节点磁盘使用量不满足升级要求
K8s节点污点检查异常处理 检查项内容 检查节点上是否存在集群升级需要使用到的污点。 表1 检查污点列表 污点名称 污点影响 node.kubernetes.io/upgrade NoSchedule 解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命
安全组检查异常处理 检查项内容 检查Node节点安全组规则中,协议端口为ICMP:全部,源地址为Master节点安全组的规则是否被删除。 仅VPC网络模型的集群执行该检查项,非VPC网络模型的集群将跳过该检查项。 解决方案 请登录VPC控制台,前往“访问控制 > 安全组”,在搜索
Pod中容器内存达到了其资源限制(resources.limits)。例如,内存溢出(OOM)会导致cgroup强制停止该容器。 运行容器的节点本身资源不足(OOM),则节点内核会选择停止一些进程来释放内存,可能会导致容器被终止。 容器健康检查失败,kubelet会停止该容器。
RBAC RBAC资源 Kubernetes中完成授权工作的就是RBAC机制,RBAC授权规则是通过四种资源来进行配置。 Role:角色,其实是定义一组对Kubernetes资源(命名空间级别)的访问规则。 RoleBinding:角色绑定,定义了用户和角色的关系。 Cluste
ch更新的资源将导致release升级失败。若环境存在同名资源且无Helm V3的归属标记app.kubernetes.io/managed-by: Helm,则会提示资源冲突。 适配方案:删除相关资源,并通过Helm创建。 Release history数量限制更新 为避免release
SAS:高IO,是指由SAS存储提供资源的磁盘类型。 SSD:超高IO,是指由SSD存储提供资源的磁盘类型。 SATA:普通IO,是指由SATA存储提供资源的磁盘类型。EVS已下线SATA磁盘,仅存量节点有此类型的磁盘。 ESSD:极速型SSD云硬盘,是指由极速型SSD存储提供资源的磁盘类型。 GP
节点挂载点检查异常处理 检查项内容 检查节点上是否存在不可访问的挂载点。 解决方案 问题场景:节点上存在不可访问的挂载点 节点存在不可访问的挂载点,通常是由于该节点或节点上的Pod使用了网络存储nfs(常见的nfs类型有obsfs、sfs等),且节点与远端nfs服务器断连,导致挂
Kubernetes API 无法响应,控制节点无法使用,甚至整个集群无法正常工作的情况。 集群过载会对集群控制平面及依赖该平面的业务产生影响。以下列举了一些可能受到影响的场景: Kubernetes资源管理:在进行创建、删除、更新或查询 Kubernetes 资源的操作时,可能会出现失败的情况。
购买集群 集群类型对比 购买Standard/Turbo集群 在CCE Turbo集群中使用分布式云资源 使用KMS进行Secret落盘加密 iptables与IPVS如何选择 父主题: 集群
集群升级后,需要检查节点状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群内节点的状态,您可以根据诊断结果前往节点列表页面进行确认。 解决方案 集群节点异常时,建议您通过重置节点来解决,若无法解决,请联系技术支持人员。 父主题: 升级后验证
(从2U4G变更4U8G)。 节点池扩容时,将根据节点池的节点模板信息计算资源,而ECS侧变更规格导致节点的规格与节点池设定的规格不一致,导致当前集群的CPU和内存使用量计算存在偏差,使扩容时节点池的资源总数可以部分超出CPU/内存的扩容上限。 节点池缩容时,如果缩容已变更规格的
该API用于变更一个指定集群的规格。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 使用限制请参考变更集群规格。 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{project_id}/clu
2。如果VPA计算后的资源申请值建议为80m,则该容器最终的CPU资源申请值为80m,限制值为160m。 VPA会尽量让建议值符合其他资源限制要求。但如果VPA建议值与资源限制出现冲突,VPA建议值不会根据资源限制进行调整,可能导致VPA配置值超出其他资源限制要求。 例如,某一个
CCE集群基于已有基础资源(VPC)创建集群、节点时,请确保IAM用户在已有资源的企业项目下有相关权限,否则可能导致集群或者节点创建失败。 当资源不支持企业项目时,为企业项目授予该资源的权限将不会生效。 是否支持企业项目 资源名称 说明 支持企业项目的资源 cluster 集群 node
Turbo 允许同时同步的资源对象的数量。配置数量越大,管理响应越快,但 CPU(和网络)负载也越高 配置建议: 无特殊需求建议保持默认配置 并发数量设置过小可能导致管理器处理响应慢,设置过大会对集群管控面造成压力,产生过载风险 endpoint并发处理数 参数名 取值范围 默认值
beflow作业TFJob的Ps和Worker是不感知的。在集群高负载(资源不足)的情况下,会出现多个作业各自分配到部分资源运行一部分Pod,而又无法正执行完成的状况,从而造成资源浪费。以下图为例,集群有4块GPU卡,TFJob1和TFJob2作业各自有4个Worker,TFJo
kubernetes中资源可以使用YAML描述(如果您对YAML格式不了解,可以参考YAML语法),也可以使用JSON,如下示例描述了一个名为nginx的Pod,这个Pod中包含一个名为container-0的容器,使用nginx:alpine镜像,使用的资源为100m CPU、200Mi内存。
使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 CCE AI套件(NVIDIA GPU)插件使用DCGM-Exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理 GPU监控指标说明 父主题: 调度