检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查Ingress状态是否正常 CCE支持两种类型的Ingress,其中Nginx类型的Ingress Controller由社区开源的插件提供,需要在集群中安装插件自行运维;而ELB型的Ingress Controller运行在master节点上,由专门的华为云团队负责运维,无需用户保证
CCE Standard集群为您提供简单、低成本、高可用的解决方案,无需管理和运维控制节点,并且可根据业务场景选择使用容器隧道网络模型或VPC网络模型,适合对性能和规模没有特殊要求的通用场景。
在CCE集群的日常使用过程中,我们通常需要同时管理多个集群,因此在使用kubectl命令行工具连接集群时需要经常切换kubeconfig配置文件,为日常运维带来许多不便。本文将为您介绍如何便捷地使用同一个kubectl客户端连接多个集群。
长久未升级的集群,在需要升级时需要更大的运维保障投入。周期性的跟随升级能有效缓解版本差异累积导致的兼容性风险。建议用户每季度升级一次补丁版本,每年升级一次大版本至当前支持的最新版本。
Nginx型的Ingress Controller通过pod部署在工作节点上,因此引入了相应的运维成本和Nginx组件运行成本,其工作原理如图5,实现步骤如下: 当用户更新Ingress资源后,Ingress Controller就会将其中定义的转发规则写入到Nginx的配置文件(
图1 模型训练环节 Kubeflow诞生于2017年,Kubeflow项目是基于容器和Kubernetes构建,旨在为数据科学家、机器学习工程师、系统运维人员提供面向机器学习业务的敏捷部署、开发、训练、发布和管理平台。
如果使用上述方式均无法获取到所需 ID,请提交工单联系运维人员处理。 调用方法 请参见如何调用API。
价值 面向AI计算的容器服务,采用高性能GPU计算实例,并支持多容器共享GPU资源,在AI计算性能上比通用方案提升3~5倍以上,并大幅降低了AI计算的成本,同时帮助数据工程师在集群上轻松部署计算应用,您无需关心复杂的部署运维,专注核心业务,快速实现从0到1快速上线。
已EOS集群版本请升级到在维版本进行修复。
图2 查看无状态工作负载日志 当前显示的日志内容为容器标准输出日志,不具备持久化和高阶运维能力,如需使用更完善的日志能力,可使用日志管理功能。
在使用CCE过程中,数据面的节点需要您自行运维。为实现高可靠目标,您需要保证数据面的可扩展性及可修复性,并及时关注关键组件的运行状态。
OpenKruise 一个基于Kubernetes的扩展套件,主要聚焦于云原生应用的自动化,比如部署、发布、运维以及可用性防护。
单击“监控”页签顶部的“查看更多”,前往运维管理页面查看历史监控记录。 当节点cpu和内存负载过高时,会导致节点网络时延过高,或系统OOM,最终展示为不可用。 解决方案: 建议迁移业务,减少节点中的工作负载数量,并对工作负载设置资源上限,降低节点CPU或内存等资源负载。
已EOS集群版本请升级到在维版本进行修复。 已修复集群版本:v1.21.12-r4、v1.23.11-r4、v1.25.6-r4、v1.27.3-r4、v1.28.1-r4及以上版本。
在Pod间亲和场景中,如果启用优先级抢占,当deploy1与比其优先级低的deploy2亲和,volcano-scheduler为保证业务自运维,将驱逐deploy3,并将deploy1调度到节点上。被驱逐的deploy3将会在新节点准备好后,调度到新节点上。
单击“监控”页签顶部的“查看更多”,前往运维管理页面查看历史监控记录。当节点CPU和内存负载过高时,会导致节点网络时延过高,或系统OOM,最终展示为不可用。 检查节点事件 登录CCE服务控制台。 在界面中选择需要检查节点所在的集群。
当配置在全部命名空间时能力与运维权限一致。 admin(运维权限):对全部命名空间下大多数资源的读写权限,对节点、存储卷,命名空间和配额管理的只读权限。 cluster-admin(管理员权限):对全部命名空间下所有资源的读写权限。
参数名 取值范围 默认值 是否允许修改 作用范围 version 在维版本 最新的商用版本 仅支持创建集群时自定义版本,集群创建完成后不支持修改,此时可以通过升级集群变更版本号 CCE Standard/CCE Turbo 若不配置,默认创建最新版本的集群。
clusterOps ClusterOps object 参数解释: 集群运维相关配置。 约束限制: 不涉及 enableAutopilot Boolean 参数解释: 是否为Autopilot集群。
clusterOps ClusterOps object 参数解释: 集群运维相关配置。 约束限制: 不涉及 enableAutopilot Boolean 参数解释: 是否为Autopilot集群。