检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台,它弥补了Kubernetes在机器学习、深度学习、HPC、大数据计算等场景下的基本能力缺失,其中包括gang-schedule的调度能力、计算任务队列管理、task-topology和
Volcano调度器 插件简介 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管
为工作负载提供NPU资源。 NPU调度 Volcano调度 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。
Volcano调度器 插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano
当前最流行的机器学习软件。 目前Kubeflow 1.0版本已经发布,包含开发、构建、训练、部署四个环节,可全面支持企业用户的机器学习、深度学习完整使用过程。 如下图所示: 通过Kubeflow 1.0,用户可以使用Jupyter开发模型,然后使用fairing(SDK)等工具构
方便灵活地进行定制化开发。 应用场景4:高精度资源调度 Volcano 在支持AI,大数据等作业的时候提供了高精度的资源调度策略,例如在深度学习场景下计算效率非常重要。以TensorFlow计算为例,配置“ps”和“worker”之间的亲和性,以及“ps”与“ps”之间的反亲和性
单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 通过Pod内存监控查看内存增长曲线,确定异常出现时间。 根据监控、内存增长时间点、日志、进程名等信息,排查Pod内对应进程是否存在内存泄漏。 若OOM是进程内存泄漏导致,请您自行排查泄露原因。
什么是云容器引擎 云容器引擎(Cloud Container Engine,简称CCE)是一个企业级的Kubernetes集群托管服务,支持容器化应用的全生命周期管理,为您提供高度可扩展的、高性能的云原生应用部署和管理方案。 为什么选择云容器引擎 云容器引擎深度整合高性能的计算(
使用ASM实现灰度发布和蓝绿发布 应用服务网格(Application Service Mesh,简称ASM)是基于开源Istio推出的服务网格平台,它深度、无缝对接了企业级Kubernetes集群服务云容器引擎(CCE),在易用性、可靠性、可视化等方面进行了一系列增强,可为客户提供开箱即用的上手体验。
就需要为集群增加节点,从而保证业务能够正常提供服务。 弹性伸缩在CCE上的使用场景非常广泛,典型的场景包含在线业务弹性、大规模计算训练、深度学习GPU或共享GPU的训练与推理、定时周期性负载变化等。 CCE弹性伸缩 CCE的弹性伸缩能力分为如下两个维度: 工作负载弹性伸缩:即调度
事件的指标展示,全面监控集群的健康状态和负荷程度。 仪表盘:仪表盘可将不同图表汇聚到同一个屏幕上,通过不同的仪表形式来展示资源数据,例如,曲线图、数字图等,进而全面、深入地掌握监控数据。 优势 监控中心深度整合云原生基金会(CNCF)的监控项目Prometheus。对关键指标、事
memory。 可能会导致系统OOM异常,当出现系统OOM异常时,节点事件中可看到关键字Syetem OOM。 解决方案 通过节点的监控查看内存增长曲线,确认异常出现时间点,检查节点上的进程是否存在内存泄露现象。具体操作请参见检查节点监控。 降低节点上的负载。 如需重启节点,可在ECS界面
务器、开发、测试环境以及中低性能数据库等场景。 GPU加速型:提供优秀的浮点计算能力,从容应对高实时、高并发的海量计算场景。P系列适合于深度学习,科学计算,CAE等;G系列适合于3D动画渲染,CAD等。仅支持1.11及以上版本集群添加GPU加速型节点。 高性能计算型:实例提供具有
云原生监控插件兼容自建Prometheus 云原生监控插件兼容模式 若您已自建Prometheus,且您的Prometheus基于开源,未做深度定制、未与您的监控系统深度整合,建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控,无需开启“兼容模式”。 卸
Core 深度学习加速 云桌面、图像渲染、3D可视化、重载图形设计。 CCE Standard集群 计算加速型 P2s NVIDIA V100 5120 14TFLOPS 单精度浮点计算 7TFLOPS 双精度浮点计算 112TFLOPS Tensor Core 深度学习加速 AI
集群需要安装nginx-ingress插件,存在资源消耗 ASM 商用场景 无需修改应用的服务代码,非侵入式治理 界面可视化,灰度发布或蓝绿发布过程中的流量变化可通过拓扑图、曲线图等直观查看 可配置的灰度策略更全面,包括基于流量比例、基于请求内容(Header、Cookie、操作系统、浏览器) 需要为集群启用Istio,占用额外资源
存储概述 存储概览 CCE的容器存储功能基于Kubernetes容器存储接口(CSI)实现,深度融合多种类型的云存储并全面覆盖不同的应用场景,而且完全兼容Kubernetes原生的存储服务,例如EmptyDir、HostPath、Secret、ConfigMap等存储类型。 图1
CCE Standard集群、CCE Turbo集群支持 CCE基于Volcano调度器提供多元算力资源调度及任务调度的能力,面向机器学习、深度学习、生物信息学、基因组学及其他大数据应用场景提供完整的应用调度特性。 CCE支持CPU资源调度、GPU/NPU异构资源调度、在离线作业混合部署、CPU
修改CCE集群配置 操作场景 CCE支持对集群配置参数进行管理,通过该功能您可以对核心组件进行深度配置。 操作步骤 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到目标集群,查看集群的更多操作,并选择“配置管理”。 图1 配置管理 在侧边栏滑出的“配置管理”窗口中,根据业