检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ry、GPU等资源原理类似。其中: CPU.weight为用户设置的CPU权重 request为当前Pod请求的CPU资源量 used为当前节点已经分配使用的CPU量 allocatable为当前节点CPU可用总量 通过Binpack策略的节点总得分如下: binpack.weight
NUMA亲和性调度 云原生混部 云原生混部解决方案围绕Volcano和Kubernetes生态,帮助用户提升资源利用率,实现降本增效。 功能 描述 参考文档 动态资源超卖 根据在线作业和离线作业类型,通过Volcano调度将集群中申请而未使用的资源(即申请量与使用量的差值)利用起来,实现资源超卖和混合部署,提升集群资源利用率。
NoSchedule 已运行在该节点的Pod不会被驱逐。 未运行的Pod不会被调度到该节点。 Pod可以在这个节点上一直运行。 通过控制台配置容忍策略 登录CCE控制台。 在创建工作负载时,在“高级配置”中找到“容忍策略”。 添加污点容忍策略。 表1 容忍策略设置参数说明 参数名 参数描述
CCE集群弹性引擎是Kubernetes提供的集群节点弹性伸缩组件,根据Pod调度状态及资源使用情况对集群的节点进行自动扩容缩容,同时支持多可用区、多实例规格、指标触发和周期触发等多种伸缩模式,满足不同的节点伸缩场景。 前提条件 使用节点伸缩功能前,需要安装CCE集群弹性引擎插件,插件版本要求1
工作负载异常:Pod一直处于Terminating状态 问题描述 查询某个命名空间下的工作负载时,偶现部分Pod(实例)一直处于Terminating 状态。 例如,查询aos命名空间下的Pod: #kubectl get pod -n aos NAME
检查到集群中存在未完成的排水任务,此时升级可能会导致升级完成后触发排水动作,将运行中的Pod进行驱逐。 解决方案 配置Kubectl命令,具体请参见通过kubectl连接集群。 查看是否存在排水任务,以下为正常回显: kubectl get drainage 图1 排水任务,以下回显表示存在排水任务
ConfigMaps。 优雅节点关闭现在已升级到测试状态。通过此更新,kubelet可以感知节点关闭,并可以优雅地终止该节点的Pod。在此更新之前,当节点关闭时,其Pod没有遵循预期的终止生命周期,这导致了工作负载问题。现在kubelet可以通过systemd检测即将关闭的系统,并通知正在运行的Pod,使它们优雅地终止。
导入临时卷 手动导入 如果创建节点时没有导入临时存储卷,或当前存储卷容量不够,可以进行手动导入。 前往ECS控制台为节点添加SCSI类型的磁盘。操作步骤详情请参见新增磁盘。 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“存储”,并切换至“存储池”页签。 查看已添加
在EVS控制台扩容成功后,仅扩大了云硬盘的存储容量,还需要执行后续步骤扩容逻辑卷和文件系统。 登录CCE控制台,进入集群,在左侧选择“节点管理”,单击节点后的“同步云服务器”。 登录目标节点。 使用lsblk命令查看节点块设备信息。 这里存在两种情况,根据容器存储Rootfs而不同。
根据提供的插件模板,安装插件实例。 查询AddonTemplates列表 插件模板查询接口,查询插件信息。 更新AddonInstance 更新插件实例的功能。 删除AddonInstance 删除插件实例的功能。 获取AddonInstance详情 获取插件实例详情。 获取AddonInstance列表
XGPU服务的隔离功能不支持以UVM的方式申请显存,即调用CUDA API cudaMallocManaged(),更多信息,请参见NVIDIA官方文档。请使用其他方式申请显存,例如调用cudaMalloc()等。 受GPU虚拟化技术的限制,容器内应用程序初始化时,通过nvidi
限制,务必在使用前做好评估。 迁移方案 本文介绍一种集群迁移方案,适合如下几类集群: 本地IDC自建的K8s集群 通过多台ECS自建的集群 其他云服务商提供的集群服务 停止维护,无法原地升级的需要迁移的CCE集群 在迁移前,需对原集群的所有资源进行分析再决定迁移方案,可迁移的资源
创建模板实例失败”。 问题原因 当出现以上报错内容,说明该资源不为通过helm v3创建。若环境存在同名资源且无helm v3的归属标记“app.kubernetes.io/managed-by: Helm”时,则会提示资源冲突。 解决方案 删除相关报错资源,重新通过helm创建。
25、v1.27版本集群 支持JuiceFS类型的存储 1.3.44 v1.17 v1.19 v1.21 v1.23 支持Pod配置全域弹性公网IP 1.3.35 v1.17 v1.19 v1.21 v1.23 支持原地升级镜像 支持ReadinessGates 1.3.25 v1.17
创建节点。 手动导入 如果创建节点时没有导入持久存储卷,或当前存储卷容量不够,可以进行手动导入。 前往ECS控制台为节点添加SCSI类型的磁盘。操作步骤详情请参见新增磁盘。 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“存储”,并切换至“存储池”页签。 查看已添加
1、集群休眠后,将无法在此集群上创建和管理工作负载等资源。 2、按需付费集群休眠后,将暂停收取控制节点资源费用,集群所属的节点、绑定的弹性IP、带宽等资源按各自的计费方式(“包年/包月”或“按需付费”)进行收费。 调用方法 请参见如何调用API。 URI POST /api/v3
源不再提供服务,使用apps/v1替代。 extensions/v1beta1下daemonsets、deployments、replicasets不再提供服务,使用apps/v1替代。 extensions/v1beta1下networkpolicies不再提供服务,使用networking
CCE集群中的节点无法远程登录,如何排查解决? CCE创建节点成功后,无法ssh远程登录。ssh回显提示“所选的用户密钥未在远程主机上注册”,即root用户不能直接登录到节点。 出现上述问题的原因是CCE创建的节点安装了cloudinit,有默认的linux用户,并且该密钥也是用于linux。
默认值 是否允许修改 作用范围 labels 无 无 允许 - 标签是资源对象的一种附加标识,可以通过标签进行过滤查询 配置建议: 用户按需将一些查询和管理维度(如配置项所属业务领域、微服务等)抽象为标签,方便对配置项进行过滤查询 父主题: 配置项
方式二:已有集群中开启 登录CCE控制台,进入一个已有的集群(集群版本为v1.23及以上)。 在概览页面,查看控制节点信息,如集群未开启过载控制,此处将会出现相应提示。如需开启过载控制,您可单击“立即开启”。 图2 已有集群开启过载控制 集群过载监控 方式一:CCE界面 登录CCE控制台,进入一个已有的集群(集群版本为v1