搜索_华为云

Lite Cluster&Server介绍 - AI开发平台ModelArts

Lite又分以下2种形态： ModelArts Lite Server提供不同型号的xPU裸金属服务器，您可以通过弹性公网IP进行访问，在给定的操作系统镜像上可以自行安装加速卡相关的驱动和其他软件，使用SFS或OBS进行数据存储和读取相关的操作，满足算法工程师进行日常训练的需要。请参见弹性裸金属Lite

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
管理AI Gallery中的AI应用 - AI开发平台ModelArts

创建AI应用时，默认“可见范围”是“私密”，且“仅自己可见”。创建完成后，支持修改可见范围。 “公开”：表示公开资产，所有用户都可以查看该资产。当选择公开AI应用，系统会自动提交资产公开申请，审核通过之前资产还是私密状态，审核通过后就会变成公开状态。 “私密”：表示仅部分用户可见。 “仅自己可见”：默认状态，表示仅AI应用创建者可见该资产。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
管理Lite Cluster节点池 - AI开发平台ModelArts

可。每个资源池至少需要有一个节点池，当只有一个节点池时不支持删除。查看节点池的存储配置在节点池管理的更新页面，可以查看该节点池配置的系统盘、容器盘或数据盘的磁盘类型、大小、数量、写入模式、容器引擎空间大小、挂载路径磁盘配置等参数。在Lite资源池的扩缩容页面，也可以查看节点池的存储配置信息。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

出现内存溢出的情况，用户可参考表2进行配置。图2 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置：输入用户在Notebook中创建的“子目录挂载”

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）
部署推理服务 - AI开发平台ModelArts

nci7。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统，dir为宿主机中文件目录，${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
离线训练安装包准备说明 - AI开发平台ModelArts

若用户的机器或资源池无法连通网络，并无法git clone下载代码、安装python依赖包的情况下，用户则需要找到已联网的机器（本章节以Linux系统机器为例）提前下载资源，以实现离线安装。用户可遵循以下步骤：步骤一：资源下载 Python依赖包下载：进入 scripts/install

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
SFT全参微调训练 - AI开发平台ModelArts

出现内存溢出的情况，用户可参考表2进行配置。图2 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置：输入用户在Notebook中创建的“子目录挂载”

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
LoRA微调训练 - AI开发平台ModelArts

出现内存溢出的情况，用户可参考表2进行配置。图2 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置：输入用户在Notebook中创建的“子目录挂载”

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
查询网络资源列表 - AI开发平台ModelArts

object 网络资源的注释信息。表7 NetworkMetadataLabels 参数参数类型描述 os.modelarts/name String 用户指定的network名称。 os.modelarts/workspace.id String 工作空间ID。获取方法请参见查询工作

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
创建网络资源 - AI开发平台ModelArts

网络资源的标签信息。表4 NetworkMetadataLabels 参数是否必选参数类型描述 os.modelarts/name 是 String 用户指定的network名称。 os.modelarts/workspace.id 否 String 工作空间ID。获取方法请参见查

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询工作空间配额 - AI开发平台ModelArts

name_cn String 配额名称(中文)。 unit_cn String 数量单位(中文)。 name_en String 工作空间ID，系统生成的32位UUID，不带橫线。默认的工作空间id为'0'。 unit_en String 数量单位(英文)。 used_quota Integer

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
认证鉴权 - AI开发平台ModelArts
认证鉴权 - AI开发平台ModelArts

Key）加密调用请求。 Token认证 Token的有效期为24小时，需要使用同一个Token鉴权时，可以缓存起来，避免频繁调用。 Token在计算机系统中代表令牌（临时）的意思，拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头，从而通过身份认证，获得操作API的权限。

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

出现内存溢出的情况，用户可参考表2进行配置。图2 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置：输入用户在Notebook中创建的“子目录挂载”

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
删除网络资源 - AI开发平台ModelArts

object 网络资源的注释信息。表4 NetworkMetadataLabels 参数参数类型描述 os.modelarts/name String 用户指定的network名称。 os.modelarts/workspace.id String 工作空间ID。获取方法请参见查询工作

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
管理Lite Cluster节点 - AI开发平台ModelArts

>重置”按钮，可实现对多个节点的重置。如图1，下发重置节点任务时需要填写以下参数。表1 重置参数说明参数名称说明操作系统选择下拉框中支持的操作系统。配置方式选择重置节点的配置方式。按节点比例：重置任务包含多个节点时，可以设置同时被重置节点的最高比例。按实例数量

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
SFT全参微调训练 - AI开发平台ModelArts

默认必须填写。根据资源规格每个节点上NPU的数量填写。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。图2 开启故障重启 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。本次qwenvl模型选用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
LoRA微调训练 - AI开发平台ModelArts

默认必须填写。根据资源规格每个节点上NPU的数量填写。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。图2 开启故障重启 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。本次qwenvl模型选用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

sudo systemctl --now enable docker 安装NIVDIA容器插件。 distribution=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -fsSL https://nvidia.github.io

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

Job>Stop”，或者直接在网页端单击终止。图30 终止训练作业步骤5：清除相应资源为避免产生不必要的费用，在完成试用后，建议您删除相关资源，如在线服务、训练作业及其OBS目录。停止Notebook：在“Notebook”页面，单击对应实例操作列的“停止”。在PyCharm菜单栏中，选择“ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

使用自定义镜像功能，通过torch.distributed.run命令启动训练的启动文件 torch_ddp.py内容如下： import os import torch import torch.distributed as dist import torch.nn as nn import

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练

总条数： 799

上一页
1
...
28
29
30
...
40
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Lite Cluster&Server介绍 - AI开发平台ModelArts

管理AI Gallery中的AI应用 - AI开发平台ModelArts

管理Lite Cluster节点池 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

查询网络资源列表 - AI开发平台ModelArts

创建网络资源 - AI开发平台ModelArts

查询工作空间配额 - AI开发平台ModelArts

认证鉴权 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

删除网络资源 - AI开发平台ModelArts

管理Lite Cluster节点 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线