搜索_华为云

LoRA微调训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
步骤总览 - AI开发平台ModelArts
步骤总览 - AI开发平台ModelArts

专属资源池VPC打通 ECS服务器挂载SFS Turbo存储（可选）工作空间配置训练：上传数据和算法至SFS（首次使用时需要）使用Notebook进行代码调试创建训练任务多机多卡资源购买：购买虚拟私有云VPC 购买弹性文件服务SFS 购买对象存储服务OBS 购买容器镜像服务SWR 创建网络

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度。本案例介绍如何在ModelArts Lite场景下使用ranktable路由规划完成Pytorch NPU分布式训练任务，训练任务默认使用Volcano

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
查看ModelArts模型详情 - AI开发平台ModelArts

作业版本。元模型存储路径如果元模型来源于对象存储服务，显示元模型的存放路径。容器镜像存储路径如果元模型来源于容器镜像，显示容器镜像存储路径。 AI引擎如果元模型来源于训练作业/对象存储服务，显示模型使用的AI引擎。引擎包地址如果元模型来源于对象存储服务（AI引擎为Custom），显示引擎包地址。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
准备Notebook - AI开发平台ModelArts

Turbo，以便能够通过Notebook访问SFS Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS Turbo，并对存储在SFS Turbo中的数据执行编辑操作。创建Notebook 创建开发环境Notebook实例，具体操作步骤请参考创建Notebook实例。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
开发环境计费项 - AI开发平台ModelArts

池进行模型训练和推理，计算资源不计费。如果运行Notebook实例时，使用公共资源池进行模型训练和推理，计算资源需收费。存储资源费用：数据存储到对象存储OBS、云硬盘EVS、弹性文件服务SFS中的计费。表1 计费项计费项计费项说明适用的计费模式计费公式计算资源公共资源池

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

/datasets/ --split UCF-101 mv ucf101_UCF-101.csv datasets/ 处理完数据集后的结果如图1所示。图1 处理后的数据文件 Step5 启动训练服务训练至少需要单机8卡。建议手动下载所需的权重文件，放在weights文件夹下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
托管模型到AI Gallery - AI开发平台ModelArts

托管模型到AI Gallery AI Gallery上每个资产的文件都会存储在线上的AI Gallery存储库（简称AI Gallery仓库）里面。每一个模型实例视作一个资产仓库，模型实例与资产仓库之间是一一对应的关系。例如，模型名称为“Test”，则AI Gallery仓库有个

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
为什么项目删除完了，仍然还在计费？ - AI开发平台ModelArts

因为您在使用ModelArts过程中，将数据上传至OBS进行存储，OBS会根据实际存储的数据进行计费。建议前往OBS管理控制台，清理您不再使用的数据、文件夹以及OBS桶，避免产生不必要的费用。您在创建Notebook时，选择了云硬盘EVS存储，该存储会单独收费，Notebook停止后，EVS还

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

nsorflow/code/” 用于存储训练脚本文件。 “obs://test-modelarts/tensorflow/data/” 用于存储数据集文件。 “obs://test-modelarts/tensorflow/log/” 用于存储训练日志文件。 Step2 创建数据集并上传至OBS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
托管数据集到AI Gallery - AI开发平台ModelArts

托管数据集到AI Gallery AI Gallery上每个资产的文件都会存储在线上的AI Gallery存储库（简称AI Gallery仓库）里面。每一个数据集实例视作一个资产仓库，数据集实例与资产仓库之间是一一对应的关系。例如，模型名称为“Test”，则AI Gallery仓

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery数据集
Notebook中构建新镜像 - AI开发平台ModelArts

Turbo，以便能够通过Notebook访问SFS Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS Turbo，并对存储在SFS Turbo中的数据执行编辑操作。 Step1 创建Notebook 创建开发环境Notebook实例，具体操作步骤请参考创建Notebook实例。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

在Workflow中使用大数据能力（DLI/MRS）功能介绍该节点通过调用MRS服务，提供大数据集群计算能力。主要用于数据批量处理、模型训练等场景。应用场景需要使用MRS Spark组件进行大量数据的计算时，可以根据已有数据使用该节点进行训练计算。使用案例在华为云MR

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > Workflow高阶能力
Notebook使用场景 - AI开发平台ModelArts

方便用户灵活调整实例的AI引擎；可以切换节点运行规格，方便用户灵活调整规格资源；可以初期存储使用量较小时选择小存储，可以在创建完成后根据需要扩充EVS容量；使用动态挂载OBS将OBS对象存储模拟成本地文件系统；还可以在Notebook异常时查看实例的事件定位等，具体参见管理Notebook实例。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
日志提示"write line error" - AI开发平台ModelArts

e size”，默认是10G，云上统一改为50G。 “/cache”目录满了，一般是3.5T存储空间满了，具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。处理方法如果在训练作业的工作目录下有core文件生成，可以在启动脚本最前面加上如下代码，来关闭core文件产生。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

排查是否符合业务资源使用预期，如果业务无问题，无需处理。 AI处理器HBM内存总量 ma_container_npu_hbm_bytes 昇腾系列AI处理器HBM总内存（Snt9 AI处理器专属）。字节（Byte） >0 NA NA NA AI处理器HBM内存使用量 ma_contain

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

86的包，python2版本的pip下载了python3的包。具体基础镜像运行环境请参见推理基础镜像列表。安装pip包有先后依赖关系。处理方法到pypi.org上查询依赖的待安装包是否存在，如果不存在则建议使用whl包进行安装（将待安装的whl包放到模型所在的OBS目录下）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

使用自定义引擎在ModelArts Standard创建模型使用自定义引擎创建模型，用户可以通过选择自己存储在SWR服务中的镜像作为模型的引擎，指定预先存储于OBS服务中的文件目录路径作为模型包来创建模型，轻松地应对ModelArts平台预置引擎无法满足个性化诉求的场景。自定义引擎创建模型的规范

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
ModelArts入门实践 - AI开发平台ModelArts

Standard模型训练基于ModelArts Standard上运行GPU训练任务本案例介绍了如何使用ModelArts Standard专属资源池提供的计算资源，结合SFS和OBS存储，在ModelArts Standard的训练环境中开展单机单卡、单机多卡、多机多卡分布式训练。

帮助中心 > AI开发平台ModelArts > 快速入门
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调、超参配置、训练任务、性能查看。 LoRA微调训练介绍如何进行LoRA微调、超参配置、训练任务、性能查看。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）

总条数： 1361

上一页
1
...
25
26
27
...
69
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

LoRA微调训练 - AI开发平台ModelArts

步骤总览 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

查看ModelArts模型详情 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

开发环境计费项 - AI开发平台ModelArts

Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

托管模型到AI Gallery - AI开发平台ModelArts

为什么项目删除完了，仍然还在计费？ - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

托管数据集到AI Gallery - AI开发平台ModelArts

Notebook中构建新镜像 - AI开发平台ModelArts

在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

Notebook使用场景 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

ModelArts入门实践 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线