检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU服务器上配置Lite Server资源软件环境 场景描述 本文旨在指导如何在GPU裸金属服务器上,安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同,您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件
示例:使用按需计费的专属资源池。计费项:计算资源费用 假设用户于2023年4月1日10:00:00创建了一个按需计费的专属资源池,并在2023年5月1日10:00:00删除此专属资源池。资源池规格为CPU: 8 核 32GB,计算节点个数为1个,单价为3.50元/小时。按照计算资源费用结算,那么此专属资源池运行期间产生的费用计算如下:
批量删除节点 功能介绍 批量删除指定资源池中的节点,资源池中至少保留一个节点。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_i
资源和引擎规格接口 查询作业资源规格 查询作业引擎规格 父主题: 训练管理(旧版)
本章节主要介绍如何通过Prometheus查看Lite Cluster监控指标。 约束限制 需要在ModelArts Lite Cluster资源池详情页的配置管理页面中先打开“监控”开关。 开通此功能后,兼容Prometheus指标格式的第三方组件可通过API http://<节点
资源和引擎规格接口 查询资源规格列表 查询引擎规格列表 父主题: 训练管理
购买Server资源 7、在ModelArts控制台上购买资源池。 步骤1:申请开通资源规格 请联系华为云客户经理确认Server资源方案、申请要开通资源的规格(若无客户经理可提交工单)。 步骤2:资源配额提升 由于Server所需资源可能会超出华为云默认提供的资源(如ECS、EI
批量重启节点 功能介绍 批量重启指定资源池中的节点 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/pools/{pool
表2 响应Body参数 参数 参数类型 描述 apiVersion String API版本。可选值如下: v1 kind String 资源类型。可选值如下: PluginTemplate:插件模板 metadata PluginTemplateMetadata object 插件模板的metadata信息。
在Lite Cluster资源池上使用Snt9B完成推理任务 场景描述 本案例介绍如何在Snt9B环境中利用Deployment机制部署在线推理服务。首先创建一个Pod以承载服务,随后登录至该Pod容器内部署在线服务,并最终通过新建一个终端作为客户端来访问并测试该在线服务的功能。
为什么资源充足还是在排队? 如果是公共资源池,一般是由于其他用户占用资源导致,请耐心等待或根据训练作业一直在等待中(排队)?方法降低排队时间。 如果是专属资源池,建议您进行以下排查: 排查专属资源池中是否存在其他作业(包括推理作业、训练作业、开发环境作业等)。 可通过总览页面,快
Integer 用户可创建网络个数配额。 poolQuota Integer 用户可创建资源池个数配额。 pooHighAvailable Boolean 当前环境/局点是否支持创建高可用资源池。 状态码: 404 表3 响应Body参数 参数 参数类型 描述 error_code
文件传输(推荐) 该接口支持上传本地文件和文件夹至OBS,支持下载OBS文件和文件夹至本地,推荐使用该接口。 示例代码 在ModelArts Notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 from modelarts
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 场景描述 本案例介绍如何在Snt9B上进行分布式训练任务,其中Cluster资源池已经默认安装volcano调度器,训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型,详细代码和指导可参考Bert。
Lite Cluster资源使用 在Lite Cluster资源池上使用Snt9B完成分布式训练任务 在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 在Lite Cluster资源池上使用Snt9B完成推理任务
Cluster资源池节点故障如何定位 故障说明和处理建议 图1 Lite池故障处理流程 对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。同时,节点
object 节点资源量信息。 availableResources NodeResource object 节点可用资源量信息。 表9 NodeResource 参数 参数类型 描述 cpu String CPU资源量。 memory String 内存资源量。 nvidia.com/gpu
Lite Server资源使用 LLM/AIGC/数字人基于Server适配NPU的训练推理指导 GPT-2基于Server适配PyTorch GPU的训练推理指导
使用Notebook进行代码调试 创建训练任务 单机多卡 资源购买: 购买虚拟私有云VPC 购买弹性文件服务SFS 购买容器镜像服务SWR 创建网络 购买ModelArts专属资源池 购买弹性云服务器ECS 基本配置: 权限配置 专属资源池VPC打通 ECS服务器挂载SFS Turbo存储
eSize的配置来决定,可访问的存储空间比较小,因此建议通过挂载外部存储空间解决存储空间受限问题。 容器中挂载存储有多种方式,不同的场景下推荐的存储方式不一样,详情如表1所示。容器存储的基础知识了解请参见存储基础知识,有助您理解本章节内容。您可查看数据盘空间分配说明,了解节点数据