检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
将运行中的Pod进行驱逐。 解决方案 配置Kubectl命令,具体请参见通过kubectl连接集群。 查看是否存在排水任务,以下为正常回显: kubectl get drainage 图1 排水任务,以下回显表示存在排水任务 请将drainage资源进行删除,删除之后再次触发升级前检查。
Master节点安全组的规则是否被删除。 8 残留待迁移节点检查异常处理 检查节点是否需要迁移。 9 K8s废弃资源检查异常处理 检查集群是否存在对应版本已经废弃的资源。 10 兼容性风险检查异常处理 请您阅读版本兼容性差异,并确认不受影响。补丁升级不涉及版本兼容性差异。 11 节点上CCE
纳管节点 功能介绍 该API用于在指定集群下纳管节点。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 接口约束 纳管节点支持ECS(弹性云服务器)节点、BMS(裸金属服务器)节点以及DeH(专属主机)节点。 待纳管节点必
护,并根据CPU和内存资源用量按需付费。 更多关于集群的详细对比,请参见集群类型对比。 核心功能 功能 描述 集群管理 集群创建:您可以根据需求创建不同类型的集群,灵活选择集群规模,动态扩展或缩减集群资源,以应对业务需求的变化,从而实现高效、灵活和经济的资源管理。详情请参见购买集群。
共享文件,这也是容器不好解决的问题。 Kubernetes抽象出了Volume来解决这两个问题,也就是存储卷,Kubernetes的Volume是Pod的一部分,Volume不是单独的对象,不能独立创建,只能在Pod中定义。 Pod中的所有容器都可以访问Volume,但必须要挂载,且可以挂载到容器中任何目录。
log”等格式日志文件,转储到AOM中,方便您查看和检索;并且云容器引擎基于AOM进行资源监控,为您提供弹性伸缩能力。 容器日志 云审计服务 CTS 云审计服务提供云服务资源的操作记录,记录内容包括您从公有云管理控制台或者开放API发起的云服务资源操作请求以及每次请求的结果,供您查询、审计和回溯使用。 云审计服务支持的CCE操作列表
WordPress:本例选取wordpress:php7.3 MySQL:本例选取mysql:5.7 在集群内部WordPress访问MySQL,Kubernetes提供一种叫服务(Service)的资源来解决负载的访问问题,本例中会为MySQL和WordPress分别创建一个Service,在后面的章节中您可以看到如何创建和配置。
请参见收集控制面组件日志。 控制集群资源数据量 集群资源数据量过大会降低etcd的性能,包括数据读取和写入延迟。除了总数据量以外,单类资源的数据量过大也会导致客户端全量查询该资源时控制平面消耗大量资源。因此,建议控制etcd的数据量及单类资源的数据量,如下表。 表1 不同集群规模建议etcd数据量上限
6-r0、v1.28.4-r0及以上版本的集群支持。 访问控制: 继承ELB已有配置:CCE不对ELB侧已有的访问控制进行修改。 允许所有IP访问:不设置访问控制。 白名单:仅所选IP地址组可以访问ELB地址。 黑名单:所选IP地址组无法访问ELB地址。 v1.25.16-r10、v1.27
行的,对于Kubeflow作业TFJob的Ps和Worker是不感知的。在集群高负载(资源不足)的情况下,会出现多个作业各自分配到部分资源运行一部分Pod,而又无法正执行完成的状况,从而造成资源浪费。以下图为例,集群有4块GPU卡,TFJob1和TFJob2作业各自有4个Work
关重要。通过监测GPU相关指标能够了解整个集群的GPU使用情况、健康状态、工作负载性能等,从而实现对异常问题的快速诊断、优化GPU资源的分配、提升资源利用率等。除运维人员以外,其他人员(例如数据科学家、AI算法工程师等)也能通过相关监控指标了解业务的GPU使用情况,以便进行容量规划和任务调度。
Delete:存储卷声明PVC删除时,会将关联的底层存储资源删除,并同步移除PV资源,请谨慎使用。 Retain:存储卷声明PVC删除时,PV和关联的底层存储资源均会保留,其中PV状态被设置为已释放,继续手动删除PV不会删除底层存储资源,若希望该PV还能被PVC绑定,需去除PV上与原PVC绑定的相关信息。
容器不允许使用超过其限制的内存,超过后容器可能会被终 止,触发OOM(Out Of Memory)事件,导致容器异常退出。关于OOM事件,可以参考为容器和Pod分配内存资源。 解决方案 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。
、环境变量、数据存储等)时,通常会触发滚动更新,进一步导致现有容器被逐步销毁并重新创建。 节点资源不足 当节点资源(如内存、CPU等)不足时,集群可能会驱逐部分Pod并将其调度到其他资源充足节点,从而触发容器重建。 节点重启或故障 若由于某些原因重启节点,节点上的容器可能会被销毁
当您的包年/包月资源到期未续费,资源将会进入宽限期,状态变为“已过期”。宽限期内您仍然可以正常访问及使用该资源。 如果超过宽限期后,您仍未续费包年/包月资源,资源将会进入保留期,资源状态变为“已冻结”,您将无法对处于保留期的包年/包月资源执行任何操作。 保留期到期后,若包年/包月资源仍未续
如何创建一个可以在公网访问的工作负载? 云容器引擎为满足多种复杂场景下工作负载间的互相访问,提供了不同的访问方式,从而满足不同场景提供不同访问通道。详情请参考网络概述设置公网访问。 我有多个工作负载(在同个集群中),它们之间需要互相访问,应该怎么办? 集群内访问表示工作负载暴露给同
一直处于创建中? NPD插件版本过低导致进程资源残留问题 模板格式不正确,无法删除模板实例? CCE是否支持nginx-ingress? 插件安装失败,提示The release name is already exist如何解决? 创建或升级实例失败,提示rendered manifests
7会偶现触发ext4文件系统卡死,ext4/jbd2会因为死锁而永远挂起。在文件系统上执行I/O的所有任务都将受到影响。 解决方法 临时解决方案:该问题触发后可以通过重启节点临时恢复。 长久解决方案: 若您的集群版本为1.19.16-r0、1.21.7-r0、1.23.5-r0、1.25.1-r0
CCE集群中域名解析失败。 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 图1 域名解析失败排查思路 当遇到域名解析失败的问题时,首先需要判断是集群内域名还是集群外域名解析失败。
有充足空闲资源的节点部署这个Pod。下面的例子中,声明Nginx这个Pod需要1核CPU,1024M的内存,运行中实际使用不能超过2核CPU和4096M内存。 Kubernetes采用静态资源调度方式,对于每个节点上的剩余资源,它是这样计算的:节点剩余资源=节点总资源-已经分配出