检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群名称修改后,如果集群相关的周边服务已使用集群名称命名实例或者将集群名称作为某个配置项,则不会同步修改。例如集群日志采集时仍会使用集群修改前的名称。 父主题: 集群运行
ode节点是集群的计算节点,即运行容器化应用的节点。 在云容器引擎CCE中,主要采用高性能的弹性云服务器ECS或裸金属服务器BMS作为节点来构建高可用的Kubernetes集群。 支持的节点规格 不同区域支持的节点规格(flavor)不同,且节点规格存在新增、售罄下线等情况,建议
重调度(Descheduler) 集群中的调度是将pending状态的Pod分配到节点运行的过程,在CCE集群之中,Pod的调度依赖于集群中的调度器(kube-scheduler或者Volcano调度器)。调度器是通过一系列算法计算出Pod运行的最佳节点,但是Kubernetes集群环境是存在动态变化的,
24及以前版本,该检查项未考虑thread-max。 内存资源不足 MemoryPressure 检查容器可分配空间(allocable)内存是否充足 周期:10秒 阈值:最大值-100MiB 最大值(Allocable):节点总内存-节点预留内存 缺点:该检测项没有从节点整体内存维度检查内存耗尽情况,只关注了容器部分(Allocable)。
创建使用自定义指标的HPA策略 Kubernetes默认的HPA策略只支持基于CPU和内存的自动伸缩,在复杂的业务场景中,仅使用CPU和内存使用率指标进行弹性伸缩往往无法满足日常运维需求。通过自定义指标配置工作负载HPA策略,可以根据业务自身特点,通过更多指标实现更灵活的弹性配置。
CRD检查异常处理 节点磁盘检查异常处理 节点DNS检查异常处理 节点关键目录文件权限检查异常处理 节点Kubelet检查异常处理 节点内存检查异常处理 节点时钟同步服务器检查异常处理 节点OS检查异常处理 节点CPU数量检查异常处理 节点Python命令检查异常处理 ASM网格版本检查异常处理
现的概率。 影响范围 受影响的集群版本: v1.15.11-r1 v.1.17.9-r0 只需对已有节点进行修复,新建节点默认无此问题。 升级过程需要重启auditd组件。 检查方法 以root用户登录node节点。 执行以下命令检查当前节点是否存在该问题: auditctl -l
限制:允许容器使用的CPU最大值 参数名 取值范围 默认值 是否允许修改 作用范围 cpu 0.01-2000 0.25 允许 - 内存配额 申请:容器需要使用的内存最小值 限制:允许容器使用的内存最大值 参数名 取值范围 默认值 是否允许修改 作用范围 memory 1-2097152Mi 512Mi 允许
检查到您集群中Ingress配置与ELB配置不一致,请确认是否在ELB侧修改过Ingress自动创建的监听器、转发策略、转发规则、后端云服务器组、后端云服务器和证书配置。 升级后会覆盖您在ELB自行修改的内容,请整改后再进行集群升级。 解决方案 根据诊断分析中的日志排查哪些资源需要整改
通任务的YAML文件仅支持查看、复制和下载。 说明: 如果对已有的定时任务(CronJob)进行修改,修改之后运行的新Pod将使用新的配置,而已经运行的Pod将继续运行不会发生任何变化。 回退 无状态工作负载可以进行回退操作,仅无状态工作负载可用。 重新部署 工作负载可以进行重新
本,提高应用程序的可靠性和可扩展性。 节点(Node) 每一个节点对应一台服务器(可以是虚拟机实例或者物理服务器),容器应用运行在节点上。节点上运行着Agent代理程序(kubelet),用于管理节点上运行的容器实例。集群中的节点数量可以伸缩。 节点池(NodePool) 节点池
- 根据集群规模和高可用模式计费。 节点(弹性云服务器 ECS) 实例规格 包括vCPU和内存。 云硬盘 随包年/包月云服务器创建的云硬盘,其计费模式也为包年/包月。包括系统盘和数据盘。 弹性公网IP 通过CCE控制台创建的包年/包月云服务器仅支持绑定“按带宽计费”的弹性公网IP。
vice配置服务器名称指示(SNI)。 动态调整后端云服务器权重 表6 动态调整后端云服务器权重注解 参数 类型 描述 支持的集群版本 kubernetes.io/elb.adaptive-weight String 根据节点上的Pod数量动态调整ELB后端云服务器的权重。每个Pod收到的负载请求更加均衡。
H插件,用来完成Pod资源的SSH信息配置。 在线离线业务混部:支持集群内在离线作业混部以及节点CPU和内存资源超卖,提升集群整体资源利用率。 建议搭配使用 GPU加速云服务器 + 弹性负载均衡ELB + 对象存储服务OBS 图1 AI计算 父主题: 应用场景
前状态恢复执行。 在Web服务器容器服务数据时,保存内容管理器容器获取的文件。 缓存空间,例如基于磁盘的归并排序。 为耗时较长的计算任务提供检查点,以便任务能方便地从崩溃前状态恢复执行。 在Web服务器容器服务数据时,保存内容管理器容器获取的文件。 运行一个需要使用节点文件。例如
一个独立的网络IP以及管理控制容器运行方式的策略选项。 Pod使用主要分为两种方式: Pod中运行一个容器。这是Kubernetes最常见的用法,您可以将Pod视为单个封装的容器,但是Kubernetes是直接管理Pod而不是容器。 Pod中运行多个需要耦合在一起工作、需要共享资
问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。 到插件运行所在的节点上,查看驱动的安装日志,路径如下所示:
Kubelet视图 Kubelet是运行在集群中每个节点上的代理程序,它提供了一些指标可以更好地了解集群的运行状态。 指标说明 Kubelet视图暴露的指标如下: 表1 Kubelet图表说明 视图名称 单位 说明 运行中Kubelet 个 集群运行中的kubelet的数量 运行中Pod 个 当前
检查节点是否含有非预期的节点池标签 检查K8s节点名称是否与云服务器保持一致 解决方案 检查到节点状态异常,请优先恢复 若检查发现节点不可用,请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面并切换至“节点”页签查看节点状态,请确保节点处于“运行中”状态。节点处于“安装中”、“删除中”状态时,均不支持升级。
请问集群界面的节点监控是怎么样的原理,是否只报最大磁盘使用率的数据呢? 问题解答: CCE集群监控信息中,磁盘使用率为当前节点中使用率最高的硬盘的监控信息。 父主题: 集群运行