云服务器内容精选

  • 新版专属资源池有什么能力? 新版专属资源池是一个全面的技术和产品的改进,主要能力提升如下: 专属资源池类型归一:不再区分训练、推理专属资源池。如果业务允许,您可以在一个专属资源池中同时跑训练和推理的Workload。同时,也可以通过“设置作业类型”来开启/关闭专属资源池对特定作业类型的支持。 自助专属池网络打通:可以在ModelArts管理控制台自行创建和管理专属资源池所属的网络。若需要在专属资源池的任务中访问自己VPC上的资源,可通过“打通VPC”来实现。 更加完善的集群信息:全新改版的专属资源池详情页面中,提供了作业、节点、资源监控等更加全面的集群信息,可帮助您及时了解集群现状,更好的规划使用资源。 自助管理集群GPU/NPU驱动:每个用户对集群的驱动要求不同,在新版专属资源池详情页中,可自行选择加速卡驱动,并根据业务需要进行立即变更或平滑升级。 更细粒度的资源划分(Coming soon):您可以将已创建的专属资源池划分为多个“小池子”,并给每个小池子以不同的配额和使用权限,做到资源灵活且精细的分配和管理。 更多新的能力和体验,将在后续的版本中不断的提供,期待您有一个良好的使用旅程。
  • 在新版专属资源池生效前创建的专属资源池,能否继续使用? 若您此前已经创建了专属资源池,这些资源池会保留不变,您在ModelArts管理控制台仍旧能看到原来的专属资源池(即弹性集群)管理入口,但不支持在此继续创建专属资源池。ModelArts支持将现有专属资源池迁移到新的体系下,此变更不需要您做任何额外操作,我们会主动与您联系完成变更。同时,此变更不会对专属资源池上运行的Workload有任何影响。您唯一要关注的是后续需要切换到新的专属资源池(即弹性集群New)中管理,其提供了更加完善且易用的管理功能。而对于AI开发者,其提交训练任务或创建推理服务等,没有任何变化影响。
  • 新版专属资源池和旧版专属资源池差异对比 旧版的开发环境/训练专用和部署上线专用专属资源池相互隔离,不能共用,且两者之间使用体验不同、提供的功能也不同。新版专属资源池将两者统一,用户可以通过设置专属资源池支持的作业类型,让资源池支持开发环境、训练作业、推理服务中的一个或多个,购买一份资源,实现多种用途。 新版专属资源池继承了旧版专属资源池的所有功能,并对专属资源池购买和扩缩容功能进行了大幅的体验优化,用户购买新版专属资源池可以获得更流畅、透明的购买体验。 新版专属资源池相比于旧版专属资源池进行了功能增强,使用新版专属资源池,用户可以享受资源池GPU/Ascend驱动自助升级、查看资源池作业排队详情、多个资源池共享一个网络等一系列新增功能,未来还会有更多新增功能将不断开放。
  • 专属资源池使用说明 若您是初次使用专属资源池,建议您可从资源池介绍开始,了解ModelArts提供的资源池详细说明。 在对ModelArts的资源池有一定了解后,若您需要创建一个自己的专属资源池,您可参考购买资源池来进行创建。 专属资源池创建成功后,可在查看资源池详情中查看专属资源池的详细信息。 若专属资源池的规格与您的业务不符,可通过扩缩容资源池来调整专属资源池的规格。 专属资源池提供了动态设置作业类型的功能,可参考修改资源池作业类型更新作业类型。 ModelArts提供了自助升级专属资源池GPU/Ascend驱动的能力,可参考资源池驱动升级进行升级。 当不再需要使用专属资源池时,您可参考删除资源池删除专属资源池。 在使用专属资源池时,可能会存在各种异常,可参考资源池异常处理对使用专属资源池时遇到的异常情况进行处理。 ModelArts提供了对网络的管理,同时支持打通VPC功能,具体可参见ModelArts网络。
  • 修复Standard资源池故障节点 在资源池详情页,切换到“节点”页签。您可以查看资源池中所有的节点,并且能查看每个节点资源占用的情况。 由于集群组件会占用一部分资源,所以列表中CPU(可用/总数)呈现的资源数量不代表该节点物理资源数量,仅表示可被业务使用到的资源量。其中,CPU核数为微核,1000微核=1物理核。若节点发生故障,您可通过以下方式修复节点。 替换节点: “节点”页签中提供对单个节点替换的功能。可单击操作列的“替换”,即可实现对单个节点的替换。替换节点操作不会收取费用。 单击“操作记录”可查看当前资源池替换节点的操作记录。“运行中”表示节点在替换中。替换成功后,节点列表中会显示新的节点名称。 替换最长时间为24小时,超时后仍然未找到合适的资源,状态会变为“失败”。可将鼠标悬浮在图标上,查看具体失败原因。 每天累计替换的次数不超过资源池节点总数的20%,同时替换的节点数不超过资源池节点总数的5%。 替换节点时需确保有空闲节点资源,否则替换可能失败。 当操作记录里有节点处于重置中时,该资源池无法进行替换节点操作。 重置节点 “节点”页签中提供节点重置的功能。单击操作列的“重置”,可实现对单个节点的重置。勾选多个节点的复选框,单击操作记录旁的“重置”按钮,可实现对多个节点的重置。 下发重置节点任务时需要填写以下参数: 表1 重置参数说明 参数名称 说明 操作系统 选择下拉框中支持的操作系统。 配置方式 选择重置节点的配置方式。 按节点比例:重置任务包含多个节点时,同时被重置节点的最高比例。 按节点数量:重置任务包含多个节点时,同时被重置节点的最大个数。 单击“操作记录”可查看当前资源池重置节点的操作记录。重置中节点状态为“重置中”,重置成功后,节点状态变为“可用”。重置节点操作不会收取费用。 图1 重置节点 重置节点将影响相关业务的运行,重置时本地盘会被清空、资源池上的k8s标签会被清除,请谨慎操作。 节点状态为“可用”的节点才能进行重置。 同一时间单个节点只能处于一个重置任务中,无法对同一个节点同时下发多个重置任务。 当操作记录里有节点处于替换中时,该资源池无法进行重置节点操作。 当资源池处于驱动升级状态时,该资源池无法进行重置节点操作。 GPU和NPU规格,重置节点完成后,节点可能会出现驱动升级的现象,请耐心等待。 图2 操作记录 删除/退订/释放节点: 若是“按需计费”的资源池,您可单击操作列的“删除”,即可实现对单个节点的资源释放。 若想批量删除节点,勾选待删除节点名称前的复选框,然后单击名称上方的“删除”,即可实现对多个节点的资源释放。 若是“包年/包月”且资源未到期的资源池,您可单击操作列的“退订”,即可实现对单个节点的资源释放。 若是“包年/包月”且资源到期的资源池(处于宽限期),您可单击操作列的“释放”,即可实现对单个节点的资源释放。 部分“包年/包月”节点会出现“删除”按钮,原因是该节点为存量节点,单击“删除”即可实现节点的资源释放。 删除/退订/释放节点可能导致该节点上运行的作业失败,请保证该节点无任务运行时再进行操作。 当资源池中存在异常节点时,可通过删除/退订/释放操作,将资源池中指定的异常节点移除,再通过扩容专属资源池获得和之前相同的总节点个数。 仅有一个节点时,无法进行删除/退订/释放操作。 父主题: 弹性集群
  • 查看资源池监控 在资源池详情页,切换到“监控”页签。展示了CPU使用量、内存利用率、磁盘可用容量等使用情况,均以资源池的维度呈现。当资源池中有AI加速卡时,还会显示GPU、NPU的相关监控信息。 图4 查看资源视图 表1 监控指标 名称 指标含义 单位 取值范围 CPU使用量 该指标用于统计测量对象的CPU使用率。 百分比(Percent) 0~100% 内存利用用率 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 百分比(Percent) 0~100% GPU显卡使用量 该指标用于统计测量对象已使用的显存占显存容量的百分比。 百分比(Percent) 0~100% GPU显存使用量 该指标用于统计测量对象已使用的显存。 兆字节(Megabytes) ≥0 NPU显卡使用量 该指标用于统计测量对象已使用的NPU显存占NPU存储容量的百分比。 百分比(Percent) 0~100% NPU显存使用量 该指标用于统计测量对象已使用的NPU显存。 ≥0 ≥0 磁盘可用容量 该指标用于统计测量对象可用的磁盘容量。 ≥0 ≥0 磁盘容量 该指标用于统计测量对象磁盘总容量。 ≥0 ≥0 磁盘利用率 该指标用于统计测量对象的磁盘使用率。 百分比(Percent) 0~100% GPU/NPU碎片数 由于资源调度产生碎片,导致某些卡虽然空闲,但无法被多卡任务所使用。不同卡数的任务,根据已占用卡的分布不同,实际会有不同的碎片情况,且随时间变化,表格中仅表示当前时间的状态。 / /