检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
混合云 应用场景 多云部署、容灾备份 为保证业务高可用,需要将业务同时部署在多个云的容器服务上,在某个云出现事故时,通过统一流量分发的机制,自动的将业务流量切换到其他云上。 流量分发、弹性伸缩 大型企业客户需要将业务同时部署在不同地域的云机房中,并能根据业务的波峰波谷进行自动弹性扩容和缩容,以节约成本。
理、应用调度、监控与运维等容器全栈能力,为您提供一站式容器平台服务。借助云容器引擎,您可以在华为云上轻松部署、管理和扩展容器化应用程序。 应用管理与运维平台(ServiceStage) ServiceStage应用管理与运维平台是一个应用托管和微服务管理平台,可以帮助企业简化部署
在集群上轻松部署计算应用,您无需关心复杂的部署运维,专注核心业务,快速实现从0到1快速上线。 优势 CCE通过集成Volcano,在高性能计算、大数据、AI等领域有如下优势: 多种类型作业混合部署:支持AI、大数据、HPC作业类型混合部署。 多队列场景调度优化:支持分队列调度,提
监控运维配置 CCE为您提供监控应用及资源的能力,支持采集各项指标及事件等数据以分析应用健康状态,您可以通过“配置中心 > 监控运维配置”统一调整监控运维参数。 您需要开通监控中心,以使用监控运维配置的所有功能。 监控配置 采集配置 系统预置采集:可视化管理云原生监控插件的监控采集任务。详情请参见管理监控采集任务。
yaml 步骤三:对接第三方监控平台 登录CCE控制台,选择一个已安装云原生监控插件的集群,单击集群名称。 在左侧导航栏中选择“配置中心”,并切换至“监控运维配置”页签。 开启“对接第三方监控平台”,将云原生监控插件采集到的数据上报至第三方监控平台。 数据上报地址:即步骤一中获取的Remote
Kubernetes的发展让容器化的部署变得简单并且高效。目前许多企业选择自建Kubernetes集群,但是自建集群往往有着沉重的运维负担,需要运维人员自己配置管理系统和监控解决方案,伴随而来的就是企业人力成本的上升和效率的降低。 在性能方面,自建集群的规模固定,可扩展性又比较弱
节点运维 节点预留资源策略说明 默认数据盘空间分配说明 节点可创建的最大Pod数量说明 CCE节点kubelet和runtime组件路径与社区原生配置差异说明 将节点容器引擎从Docker迁移到Containerd 节点系统参数优化 配置节点故障检测策略 创建节点时执行安装前/后脚本
Volcano调度器 插件简介 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管
华为云上的Kubernetes集群管理面托管在CCE管理平台上,证书也在CCE的管理平台上,不对用户开放,这个证书在平台上会定期维护,不会出现过期的情况。 X509证书在Kubernetes集群上也是默认开启的,更新平台自动会维护更新。 获取集群证书 通过CCE控制台获取集群证
如何避免非GPU/NPU负载调度到GPU/NPU节点? 问题现象 当集群中存在GPU/NPU节点和普通节点混合使用的场景时,普通工作负载也可以调度到GPU/NPU节点上,可能出现GPU/NPU资源未充分利用的情况。 问题原因 由于GPU/NPU节点同样提供CPU、内存资源,在一般
越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度
通过更换镜像版本的方式,实现秒级升级。且CCE提供了滚动升级,使升级时业务不中断。 运维 运维成本高。 每给客户部署一套应用,就需要增加一台虚拟机的维护,随着客户量的增加,维护成本非常高。 自动化运维。 企业无需关注虚拟机的维护,只需要关注业务的开发。 父主题: 实施步骤
监控中心概述 监控中心是华为云打造的新一代云原生容器运维平台,可实时监控应用及资源,采集各项指标及事件等数据以分析应用健康状态,提供全面、清晰、多维度数据可视化能力,兼容主流开源组件,并提供快捷故障定位的能力。 功能介绍 多维度数据洞察:提供基于Kubernetes原生类型的容器
概述 Kubernetes是一个开源的容器编排部署管理平台,用于管理云平台中多个主机上的容器化应用。Kubernetes的目标是让部署容器化的应用简单并且高效,Kubernetes提供了应用部署、规划、更新、维护的一种机制。 对应用开发者而言,可以把Kubernetes看成一个集
分布式云场景中跨云、跨集群的统一调度,以及不同在线应用、离线任务的统一调度。 首先,Volcano通过静态分析,获取应用的静态特征,如:CPU、内存、存储、GPU等资源的需求,应用间亲和性、区域亲和性、云平台亲和性等。 接着,Volcano对接监控系统,获取不同云平台资源、集群
基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
CCE突发弹性引擎(对接 CCI)作为一种虚拟的kubelet用来连接Kubernetes集群和其他平台的API。Bursting的主要场景是将Kubernetes API扩展到无服务器的容器平台(如CCI)。 基于该插件,支持用户在短时高负载场景下,将部署在云容器引擎CCE上的无状态负
CCE突发弹性引擎(对接 CCI)作为一种虚拟的kubelet用来连接Kubernetes集群和其他平台的API。Bursting的主要场景是将Kubernetes API扩展到无服务器的容器平台(如CCI)。 基于该插件,支持用户在短时高负载场景下,将部署在云容器引擎CCE上的无状态负
CCE突发弹性引擎(对接 CCI)作为一种虚拟的kubelet用来连接Kubernetes集群和其他平台的API。Bursting的主要场景是将Kubernetes API扩展到无服务器的容器平台(如CCI)。 基于该插件,支持用户在短时高负载场景下,将部署在云容器引擎CCE上的无状态负
容器数量 * Pod容器空间(basesize) 容器业务的创删文件操作建议在容器挂载的本地存储(如emptyDir、hostPath)或云存储的目录中进行,这样不会占用thinpool空间。其中Emptydir使用的是kubelet空间,需要规划好kubelet空间的大小。 可