检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点状态检查 检查项内容 集群升级后,需要检查节点状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群内节点的状态,您可以根据诊断结果前往节点列表页面进行确认。 解决方案 集群节点异常时,建议您通过重置节点来解决,若无法解决,请联系技术支持人员。 父主题: 升级后验证
现资源在云上云下的弹性伸缩、平滑迁移和扩容。 计算与数据分离,能力共享 通过云容器引擎,用户可以实现敏感业务数据与一般业务数据的分离,可以实现开发环境和生产环境分离,可以实现特殊计算能力与一般业务的分离,并能够实现弹性扩展和集群的统一管理,达到云上云下资源和能力的共享。 降低成本
用,获得灵活弹性的算力资源,简化对计算、网络、存储的资源管理复杂度。 适合对极致性能、资源利用率提升和全场景覆盖有更高诉求的客户。 适合具有明显的波峰波谷特征的业务负载,例如在线教育、电子商务等行业。 规格差异 网络模型 云原生网络1.0:面向性能和规模要求不高的场景。 容器隧道网络模式
需在工作负载中配置主机网络,在工作负载的yaml中的spec.spec.下加入hostNetwork: true字段。 多节点场景 如果集群下有多个节点时,除进行以上操作外,还需要设置节点的亲和策略,但工作负载创建后实例运行数不得超过亲和的节点数。 完成效果 进行如上设置并在工作
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个
CCE创建的节点是否支持按需转包周期? 当前在CCE中购买节点时支持“按需计费”和“包年/包月”(按周期)计费。 约束与限制 按需节点池中的节点转成包年/包月时,需要将集群升级到v1.19.16-r40、v1.21.11-r0、v1.23.0-r0、v1.25.4-r0及以上版本。
如何避免节点上的某个容器被驱逐? 问题背景 在工作负载调度时可能会发生一个节点上的两个容器之间互相争资源的情况,最终导致kubelet将其全部驱逐。那么能不能设定策略让其中一个服务一直保留?如何设定? 问题建议 Kubelet会按照下面的标准对Pod的驱逐行为进行评判: 根据服务
在一个正常的node节点上,删除lv,删除vg,节点不可用。 重置异常节点,重置过程中,报语法错误,而且节点不可用。 如下图: 问题定位 node节点中vg被删除或者损坏无法识别,为了避免重置的时候误格式化用户的数据盘,需要先手动恢复vg,这样重置的时候就不会去格式化其余的数据盘。
集群升级后,需要检测集群内是否有跳过升级的节点,这些节点可能会影响正常使用。 检查步骤 系统会为您检查集群内是否存在跳过升级的节点,您可以根据诊断结果前往节点列表页进行确认。跳过的节点含有标签upgrade.cce.io/skipped=true。 解决方案 对于升级详情页面中跳过的节点,请在升级完毕后重置节点。
长久解决方案: 若您的集群版本为1.19.16-r0、1.21.7-r0、1.23.5-r0、1.25.1-r0及以上,请将节点重置为最新版本的操作系统即可修复该问题。 若您的集群版本不满足要求,请将集群升级到上述指定的版本后,再将节点重置为最新版本的操作系统。 父主题: 操作系统问题说明
所有Pending状态的Pod,根据用户配置的扩缩容策略,选择出一个最合适的节点池,在这个节点池扩容。HPA和CA的工作原理详情请参见工作负载伸缩原理和节点伸缩原理。 图1 HPA + CA工作流程 使用HPA+CA可以很容易做到弹性伸缩,且节点和Pod的伸缩过程可以非常方便地观
于本地存储了数据的机制,导致prometheus-server实例滚动重启的这段时间里指标重叠,即云原生监控插件上报到AOM的指标同时存在新老prometheus-server实例的指标,因而导致节点列表的资源信息不准确。故在指标重叠的这段时间内,不展示节点列表的资源信息。若无特
19版本的CCE集群和CCE Turbo集群,您可在创建集群时选用该版本。 商用 2 支持CCE Turbo集群商用 CCE Turbo集群全面基于云原生基础设施构建的云原生2.0的容器引擎服务,具备软硬协同、网络无损、安全可靠、调度智能的优势,为用户提供一站式、高性价比的全新容器服务体验。
在左侧选择“节点管理”,切换至“节点”页签,单击“故障检测策略”。 在跳转的页面中查看当前检查项配置,单击检查项操作列的“编辑”,自定义检查项配置。 当前支持以下配置: 启用/停用:自定义某个检查项的开启或关闭。 目标节点配置:检查项默认运行在全部节点,用户可根据特殊场景需要自
kubelet启动参数中默认将CPU Manager的策略设置为static,允许为节点上具有某些资源特征的pod赋予增强的CPU亲和性和独占性。用户如果直接在ECS控制台对CCE节点变更规格,会由于变更前后CPU信息不匹配,导致节点上的负载无法重新拉起,也无法创建新负载。 更多信息请
新操作。 操作步骤 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要变更规格的集群,查看集群的更多操作,并选择“规格变更”。 图1 变更规格 在弹出的页面中,根据实际需求选择新的“集群规模”。 单击“下一步”进行规格确认,并单击“确定”。 您可以在控制台右上角单击“操
e 默认取值: 不涉及 X-Auth-Token 是 String 参数解释: 调用接口的认证方式分为Token和AK/SK两种,如果您使用的Token方式,此参数为必填,请填写Token的值,获取方式请参见获取token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及
根据不同的适用机型选择是否启用驱动,启用后插件将根据用户指定的驱动版本自动进行驱动安装。默认使用“推荐驱动”,您也可以选择“自定义驱动”并填写完整的驱动地址。 插件将根据用户针对指定机型选择的驱动版本进行驱动安装。仅对未安装NPU驱动的节点生效,已安装 NPU 驱动的节点会保持
组件负责Pod的调度,对每一个新创建的 Pod 或者是未被调度的 Pod,kube-scheduler 会选择一个最优的节点去运行这个 Pod。kube-scheduler 给一个 Pod 做调度选择包含过滤和打分两个步骤。过滤阶段会将所有满足 Pod 调度需求的节点选出来,在打分阶段