检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
部curl当前这个service的域名,查看是否能正确解析域名。当然,有的场景下是无法curl通的,这与接下来的Dns的查找原理与配置有关。 使用CCE提供的托管式Kubernetes创建Pod,Pod的域名解析参数采用了一些默认值,没有开放全部的dnsConfig配置。在使用时
SNAT规则中添加的自定义网段,对于虚拟私有云的配置,必须是虚拟私有云子网网段的子集,不能相等。 SNAT规则中添加的自定义网段,对于云专线的配置,必须是云专线侧网段,且不能与虚拟私有云侧的网段冲突。 当执行云服务器底层资源操作(如变更规格)时,会导致已配置的NAT规则失效,需要删除后重新配置。
网桥会负责将所有非本地地址的流量进行转发。因此,同一节点上的Pod可以直接通信。 不同节点上的Pod通信 Kubernetes要求集群Pod的地址唯一,因此集群中的每个节点都会分配一个子网,以保证Pod的IP地址在整个集群内部不会重复。在不同节点上运行的Pod通过IP地址互相访问
如何让多个Pod均匀部署到各个节点上? 如何避免节点上的某个容器被驱逐? 为什么Pod在节点不是均匀分布? 如何驱逐节点上的所有Pod? 如何查看Pod是否使用CPU绑核? 节点关机后Pod不重新调度 如何避免非GPU/NPU负载调度到GPU/NPU节点? 为什么Pod调度不到某个节点上? 父主题: 工作负载
为什么Pod调度不到某个节点上? 请排查节点和docker是否正常,排查方法请参见排查项七:内部组件是否正常。 如果节点和docker正常,而pod调度不到节点上,请确认pod是否做了亲和,排查方法请参见排查项三:检查工作负载的亲和性配置。 如果节点上的资源不足,导致节点调度不上,请扩容或者新增节点。
网络流入速率:节点上的物理网卡在不同的时间段的每秒钟接收的字节数。 网络发送丢包率:节点的物理网卡网络发送丢包速率。 网络接收丢包率:节点的物理网卡网络接收丢包率。 磁盘相关指标 磁盘读取速率:节点上的每个文件系统在不同的时间段的每秒钟读取的字节数。 磁盘写入速率:节点上的每个文件系统在不同的时间段的每秒钟写入的字节数。
每张GPU卡上的GPU虚拟化设备的显存总量占这张GPU卡显存总量的比例 计算公式:显卡上所有XGPU设备能使用的显存上限之和 / 显卡显存总量 GPU卡-XGPU设备算力使用率 百分比 每张GPU卡的GPU虚拟化设备的算力使用率 计算公式:显卡上所有XGPU设备当前所使用的算力之和 /
自定义调度策略:Pod可能根据自定义的亲和性和反亲和性策略进行调度,导致Pod在节点上分布不均匀。 节点污点和容忍度:节点存在某些污点,未设置容忍度的Pod无法调度到该节点上运行。 部分工作负载特性导致:工作负载可能具有特殊的分布约束,例如工作负载挂载某个可用区的云硬盘时只能调度到相同可用区的节点上。 节点
字节/秒 节点上的Pod每秒发送的字节数 接收数据包速率 个/秒 节点上的Pod每秒接收的数据包个数 发送数据包速率 个/秒 节点上的Pod每秒发送的数据包个数 丢包速率(接收) 个/秒 节点上的Pod每秒接收丢失的数据包个数 丢包速率(发送) 个/秒 节点上的Pod每秒发送丢失的数据包个数
节点-显存使用量 字节 每个节点的显存使用量 节点-算力使用率 百分比 每个节点的算力使用率 计算公式:节点上容器算力使用总量/节点上算力总量 节点-显存使用率 百分比 每个节点的显存使用率 计算公式:节点上容器显存使用总量/节点上显存总量 GPU卡-显存使用量 字节 显卡上容器显存使用总量 GPU卡-算力使用率
基于AOM服务的告警能力实现,提供集群内的告警快速检索、告警快速配置的能力。用户可以通过告警中心一键配置常用的告警规则。 AOM服务 华为云应用运维管理服务,是云上应用的一站式立体化运维管理平台,是云上监控、告警的基础。 SMN服务 华为云的消息通知服务,是云上应用发送告警或通知的依赖服
如何让多个Pod均匀部署到各个节点上? Kubernetes中kube-scheduler组件负责Pod的调度,对每一个新创建的 Pod 或者是未被调度的 Pod,kube-scheduler 会选择一个最优的节点去运行这个 Pod。kube-scheduler 给一个 Pod
节点关闭,并可以优雅地终止该节点的Pod。在此更新之前,当节点关闭时,其Pod没有遵循预期的终止生命周期,这导致了工作负载问题。现在kubelet可以通过systemd检测即将关闭的系统,并通知正在运行的Pod,使它们优雅地终止。 具有多个容器的Pod现在可以使用kubectl.kubernetes
节点关闭,并可以优雅地终止该节点的Pod。在此更新之前,当节点关闭时,其Pod没有遵循预期的终止生命周期,这导致了工作负载问题。现在kubelet可以通过systemd检测即将关闭的系统,并通知正在运行的Pod,使它们优雅地终止。 具有多个容器的Pod现在可以使用kubectl.kubernetes
用于服务账户令牌的身份验证组件,会验证API请求中使用的令牌是否指定了合法的受众。 配置建议:根据集群服务间通信的需求,精确配置受众列表。此举确保服务账户令牌仅在授权的服务间进行认证使用,提升安全性。 说明: 不正确的配置可能导致服务间认证通信失败,或令牌的验证过程出现错误。 v1
用于服务账户令牌的身份验证组件,会验证API请求中使用的令牌是否指定了合法的受众。 配置建议:根据集群服务间通信的需求,精确配置受众列表。此举确保服务账户令牌仅在授权的服务间进行认证使用,提升安全性。 说明: 不正确的配置可能导致服务间认证通信失败,或令牌的验证过程出现错误。
(停止维护)Kubernetes 1.17版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.17版本所做的变更说明。 资源变更与弃用 apps/v1beta1和apps/v1beta2下所有资源不再提供服务,使用apps/v1替代。 extensions/v
(停止维护)Kubernetes 1.17版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.17版本所做的变更说明。 资源变更与弃用 apps/v1beta1和apps/v1beta2下所有资源不再提供服务,使用apps/v1替代。 extensions/v
进行网络通信: 裸金属节点上运行的Pod使用ENI网卡。 ECS节点上运行的Pod使用Sub-ENI网卡,Sub-ENI网卡通过VLAN子接口挂载在ECS的ENI网卡上。 由于需要为每个Pod绑定网卡,因此节点上可运行的Pod数量上限由该节点的能绑定的网卡个数和网卡端口数决定。
系统会扫描过去一天的审计日志,检查用户是否调用目标K8s版本已废弃的API。 说明: 由于审计日志的时间范围有限,该检查项仅作为辅助手段,集群中可能已使用即将废弃的API,但未在过去一天的审计日志中体现,请您充分排查。 36 节点NetworkManager检查异常处理 检查节点上的NetworkManager状态是否正常。