检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Kubeflow和Volcano实现典型AI训练任务 Kubernetes已经成为云原生应用编排、管理的事实标准, 越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernet
表示按照Job的minAvailable进行抢占。 false:表示按照Job的replicas进行抢占。 说明: Kubernetes原生工作负载(如Deployment)的minAvailable默认值为1,建议配置enableJobStarving: false。 AI大数据场景,创建
Volcano调度器 插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano
度方式,通过资源抢占,分时复用等机制减少集群资源的空闲比例。 价值 面向AI计算的容器服务,采用高性能GPU计算实例,并支持多容器共享GPU资源,在AI计算性能上比通用方案提升3~5倍以上,并大幅降低了AI计算的成本,同时帮助数据工程师在集群上轻松部署计算应用,您无需关心复杂的部
version: v1 spec: containers: - image: {your_repository}/nginx:v1 # 容器使用的镜像为:nginx:v1 name: container-0 resources:
Volcano调度 Volcano调度概述 使用Volcano调度工作负载 资源利用率优化调度 业务优先级保障调度 AI任务性能增强调度 NUMA亲和性调度 应用扩缩容优先级策略 父主题: 调度
、多个语言构成,且reviews服务具有多个版本。这四个服务的说明如下: productpage:会调用details和reviews两个服务,用来生成页面。 details:包含了书籍的信息。 reviews:包含了书籍相关的评论,同时会调用ratings服务。 ratings:包含了由书籍评价组成的评级信息。
节点是容器集群组成的基本元素。节点取决于业务,既可以是虚拟机,也可以是物理机。每个节点都包含运行Pod所需要的基本组件,包括 Kubelet、Kube-proxy 、Container Runtime等。在云容器引擎CCE中,主要采用高性能的弹性云服务器ECS或裸金属服务器BMS作为节点来构建高可用的Kubernetes集群。
old-nginx spec: containers: - image: {your_repository}/nginx:old # 容器使用的镜像为:nginx:old name: container-0 resources:
就需要为集群增加节点,从而保证业务能够正常提供服务。 弹性伸缩在CCE上的使用场景非常广泛,典型的场景包含在线业务弹性、大规模计算训练、深度学习GPU或共享GPU的训练与推理、定时周期性负载变化等。 CCE弹性伸缩 CCE的弹性伸缩能力分为如下两个维度: 工作负载弹性伸缩:即调度
labels: app: gpu-test spec: containers: - image: nginx:perl name: container-0 resources: requests:
NoSQL数据库(如Cassandra、MongoDB)、ElasticSearch搜索等场景。 AI加速型:AI加速型节点实例,搭载高性能、低功耗的海思Ascend 310 AI处理器,实现快速高效地处理推理和图像识别等工作,适用于图像识别、视频处理、推理计算以及机器学习等场景。
no nodes available to schedule pods. 集群中没有可用的节点。 排查项一:集群内是否无可用节点 0/2 nodes are available: 2 Insufficient cpu. 0/2 nodes are available: 2 Insufficient
labels: app: npu-test spec: containers: - name: container-0 image: nginx:perl resources:
19.8-r1-CCE21.6.1.2.B001 $ kubectl taint node 192.168.10.240 key1=value1:NoSchedule node/192.168.10.240 tainted 通过describe命名和get命令可以查看到污点的配置。 $
# 云硬盘的类型 labels: failure-domain.beta.kubernetes.io/region: <your_region> # 替换为您待部署应用的节点所在的区域 failure-domain.beta.kubernetes.io/zone:
用的资源进行调度,确保关键业务的资源优先级得到保障。 业务优先级保障调度 AI任务性能增强调度 根据AI任务的工作性质、资源的使用情况,设置对应的调度策略,可以增强集群业务的吞吐量,提高业务运行性能。 AI任务性能增强调度 NUMA亲和性调度 Volcano可解决调度程序NUMA拓扑感知的限制,实现以下目标:
300 16 8 256 AI加速型 AI加速型弹性云服务器是是专门为AI业务提供加速服务的云服务器。基于Ascend芯片低功耗、高算力特性,能效比大幅提升,适用于AI推理场景和视频编解码场景。 AI加速型云服务器包括kAi系列和Ai系列两类。其中: kAi系列:ARM架构,处理器为鲲鹏920系列。
labels: app: nginx spec: containers: - image: nginx:latest name: container-0 resources: limits: