AI开发平台MODELARTS-Standard资源管理

时间:2024-08-30 09:04:27

Standard资源管理

在使用ModelArts进行AI开发时,您可以选择使用如下两种资源池:

专属资源池:专属资源池不与其他用户共享,资源更可控。在使用专属资源池之前,您需要先创建一个专属资源池,然后在AI开发过程中选择此专属资源池。其中专属资源池分为弹性集群和弹性裸金属。

  • 弹性集群又分为Standard弹性集群与Lite弹性集群。
    • Standard弹性集群提供独享的计算资源,使用ModelArts Standard开发平台的训练作业、部署模型以及开发环境时,通过Standard弹性集群的计算资源进行实例下发。
    • Lite弹性集群面向k8s资源型用户,提供托管式k8s集群,并预装主流AI开发插件以及自研的加速插件,以云原生方式直接向用户提供AI Native的资源、任务等能力,用户可以直接操作资源池中的节点和k8s集群。请参见弹性集群k8s Cluster
  • 弹性裸金属:弹性裸金属提供不同型号的xPU裸金属服务器,您可以通过弹性公网IP进行访问,在给定的操作系统镜像上可以自行安装GPU&NPU相关的驱动和其他软件,使用SFS或OBS进行数据存储和读取相关的操作,满足算法工程师进行日常训练的需要。请参见弹性裸金属Lite Server

公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。 用户下发训练作业、部署模型、使用开发环境实例等,均可以使用ModelArts提供的公共资源池完成,按照使用量计费,方便快捷。

专属资源池和公共资源池的能力差异
  • 专属资源池为用户提供独立的计算集群、网络,不同用户间的专属资源池物理隔离,公共资源池仅提供逻辑隔离,专属资源池的隔离性、安全性要高于公共资源池。
  • 专属资源池用户资源独享,在资源充足的情况下,作业是不会排队的;而公共资源池使用共享资源,在任何时候都有可能排队。
  • 专属资源池支持打通用户的网络,在该专属资源池中运行的作业可以访问打通网络中的存储和资源。例如,在创建训练作业时选择打通了网络的专属资源池,训练作业创建成功后,支持在训练时访问SFS中的数据。
  • 专属资源池支持自定义物理节点运行环境相关的能力,例如GPU/Ascend驱动的自助升级,而公共资源池暂不支持。

专属资源池有什么能力?

新版专属资源池是一个全面的技术和产品的改进,主要能力提升如下:

  • 专属资源池类型归一:不再区分训练、推理专属资源池。如果业务允许,您可以在一个专属资源池中同时跑训练和推理的Workload。同时,也可以通过“设置作业类型”来开启/关闭专属资源池对特定作业类型的支持。
  • 自助专属池网络打通:可以在ModelArts管理控制台自行创建和管理专属资源池所属的网络。若需要在专属资源池的任务中访问自己VPC上的资源,可通过“打通VPC”来实现。
  • 更加完善的集群信息:全新改版的专属资源池详情页面中,提供了作业、节点、资源监控等更加全面的集群信息,可帮助您及时了解集群现状,更好的规划使用资源。
  • 自助管理集群GPU/NPU驱动:每个用户对集群的驱动要求不同,在新版专属资源池列表页中,可自行选择加速卡驱动,并根据业务需要进行立即变更或平滑升级。
support.huaweicloud.com/productdesc-modelarts/modelarts_01_0056.html