检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
法调度时,尝试自动扩容已开启弹性伸缩的节点池。若Pod已经设置亲和某个节点,则不会自动扩容节点。 该功能可以和HPA策略配合使用,具体请参见使用HPA+CA实现工作负载和节点联动弹性伸缩。 自定义节点弹性策略开关:根据节点弹性策略自动扩容节点池,默认开启。 节点扩容资源上限 节点
而且Service可以给这些Pod做负载均衡。 Ingress Service是基于四层TCP和UDP协议转发的,Ingress可以基于七层的HTTP和HTTPS协议转发,可以通过域名和路径做到更细粒度的划分。 ConfigMap ConfigMap是一种用于存储应用所需配置信息
访问ID:遵循SWR的长期有效的认证凭证规则,以“区域项目名称@[AK]”形式填写。 访问密码:遵循SWR的长期有效的认证凭证规则,需要用AK和SK来生成,详细说明请参考获取长期有效登录指令。 验证远程证书:建议取消勾选。 配置同步规则。 新建规则 填写如下参数。 名称:自定义。 复
的可移植的包,这个包可以被用来在任何其他运行Docker的机器上使用。 容器和虚拟机具有相似的资源隔离和分配方式,容器虚拟化了操作系统而不是硬件,更加便携和高效。 图1 容器 vs 虚拟机 相比于使用虚拟机,容器有如下优点: 更高效地利用系统资源 由于容器不需要进行硬件虚拟以及运
节点网络参数,包含了虚拟私有云VPC和子网的ID信息,而VPC是集群内节点之间的通信依赖,所以是必选的参数集。 约束限制: 不涉及 containerNetwork 是 ContainerNetwork object 参数解释: 容器网络参数,包含了容器网络类型和容器网段的信息。 约束限制:
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量
空闲节点:资源利用率低于30%的节点。 CPU和内存资源碎片率整理策略(HighNodeUtilization) 从分配率低的节点上驱逐Pod。这个策略必须与Volcano调度器的binpack策略或者kube-scheduler调度器的MostAllocated策略一起使用。阈值可以分为CPU和内存两种资源角度进行配置。
9及后续版本,不再支持新的软件和补丁更新。CentOS用户现有业务随时面临宕机和安全风险,并无法确保及时恢复。 影响 基于CentOS官方的变更计划,对CentOS操作系统的使用者产生的影响如下所述: 2024年06月30日以后,CentOS 7的使用者将无法获得包括问题修复和功能更新在内的任何软件维护和支持。
使用CCE设置工作负载访问方式时,端口如何填写? CCE支持工作负载的内部互访和被互联网访问两种方式。 内部访问:包括集群内访问(通过集群虚拟IP)和节点访问(通过节点私有IP)两种方式。 表1 内部访问类型说明 内部访问类型 说明 端口如何填写 集群内访问(通过集群虚拟IP)
策略,具体方法请参见为集群开启CPU管理策略(DefaultPool中的节点)。 Pod的定义里都要设置requests和limits参数,requests和limits必须为整数,且数值一致。 如果有init container需要设置独占CPU,init container的
版本是否存在兼容性限制。 32 增强型CPU管理策略检查异常处理 检查当前集群版本和要升级的目标版本是否支持增强型CPU管理策略。 33 用户节点组件健康检查异常处理 检查用户节点的容器运行时组件和网络组件等是否健康。 34 控制节点组件健康检查异常处理 检查集群中的Kubern
在集群中创建节点时,默认会在节点上创建paas用户/用户组。节点上的CCE组件和CCE插件在非必要时会以非root用户(paas用户/用户组)运行,以实现运行权限最小化,如果修改paas用户/用户组可能会影响节点上CCE组件和业务Pod正常运行。 CCE组件正常运行依赖paas用户/用户组,您需要注意以下几点要求:
“VPC网络”集群 取决于节点最大实例数和节点可分配容器IP数中的最小值 建议节点最大实例数不要超过节点可分配容器IP数,否则当节点容器IP数不足时,新建Pod将无法在该节点上正常运行。 “云原生2.0网络”集群(CCE Turbo集群) 取决于节点最大实例数和CCE Turbo集群节点网卡数量中的最小值
务器ECS实例作为Node节点来构建高可用的Kubernetes集群。在日常运维中,华为云会对ECS实例所在底层宿主机的软硬件故障进行预测和主动规避。 当宿主机上的故障风险无法规避时,为避免因ECS实例的资源可用性或性能受损对您的业务造成更大的影响,系统会对受影响的ECS实例生成
实例数量。 Pod优先级抢占 当高优先级的Pod需要资源时,Kubernetes可能会驱逐低优先级的Pod,低优先级Pod可能会被重新调度和启动。 配置更新 更新Deployment或StatefulSet的相关配置(如镜像版本、环境变量、数据存储等)时,通常会触发滚动更新,进一步导致现有容器被逐步销毁并重新创建。
当前kubelet上报Memory/Disk/PID Pressure情况(心跳)都依赖于eviction manager的检测。心跳上报和eviction manager的检测分别由两个协程并发执行。正常情况下,如果先执行eviction manager的检测,再执行心跳上报,
工作目录、容器镜像的数据和镜像元数据;另一块用于Kubelet组件和EmptyDir临时存储等。容器引擎空间的剩余容量将会影响镜像下载和容器的启动及运行。 容器引擎和容器镜像空间(默认占90%):用于容器运行时工作目录、存储容器镜像数据以及镜像元数据。 Kubelet组件和EmptyDir
高频常见问题 集群管理 CCE集群创建失败的原因与解决方法? 集群的管理规模和控制节点的数量有关系吗? 当集群状态为“不可用”时,如何排查解决? 节点及节点池 集群可用但节点状态为“不可用”如何解决? 如何收集CCE集群中节点的日志? thinpool磁盘空间耗尽导致容器或节点异常时,如何解决?
集群开启CPU管理策略(绑核)时,kubelet启动参数中会将CPU Manager的策略设置为static,允许为节点上具有某些资源特征的pod赋予增强的CPU亲和性和独占性。用户如果直接在ECS控制台对CCE节点变更规格,会由于变更前后CPU信息不匹配,导致节点上的负载无法重新拉起,也无法创建新负载。 登
CUDA Toolkit和驱动的版本兼容性列表 在选择Nvidia驱动时,需要保证驱动版本兼容CUDA Toolkit版本,官方提供配套关系如下表。该表展示了CUDA Toolkit版本兼容的最低驱动版本,如需更精确的版本对照表,请参见CUDA Toolkit和驱动的版本兼容性列表。您可以根据应用所使用的CUDA