搜索_华为云

准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

/home/ma-user/ascend_cloud_ops-1.0.0-py3-none-any.whl /home/ma-user/cann_ops-1.0.0-py3-none-any.whl RUN pip install /home/ma-user/ascend_cloud_ops-1.0.0-py3-none-any

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

ascendfactory-cli train <cfgs_yaml_file> <model_name> <exp_name> # 指定设备卡数，如2卡 ASCEND_RT_VISIBLE_DEVICES=0,1 ascendfactory-cli train <cfgs_yaml_file>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

4.manylinux2014_aarch64.whl文件：请单击下载地址下载。 ModelArts当前仅支持CANN商用版本，不支持社区版。下载Miniconda3安装文件。使用地址下载地址，下载Miniconda3-py39_24.5.0-0安装文件（对应python 3

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
msprobe精度分析工具使用指导 - AI开发平台ModelArts

bleDiffusion中需要在forward过程中逐步生成随机噪声。这样在Host侧生成的随机张量能够保证一样，搬移到NPU或者GPU设备上仍然一样。固定随机性完成后，可以使用缩小的模型在单机环境进行问题复现。复现后使用msprobe工具进行问题定位。需要注意的是，部分模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
yaml配置文件参数配置说明 - AI开发平台ModelArts

用于指定预处理数据的工作线程数。随着线程数的增加，预处理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 必须修改，指定每个设备的训练批次大小。 gradient_accumulation_steps 8 指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。 output_dir

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

/home/ma-user/AscendCloud-OPP-*.zip RUN pip install /home/ma-user/ascend_cloud_ops-1.0.0-py3-none-any.whl RUN pip install /home/ma-user/cann_ops-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 准备工作
创建数据集 - AI开发平台ModelArts

0：普通集群 1：安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name 否 String 导入表格数据集，数据库名字。 input 否 String 表格数据集，HDFS路径。例如/datasets/demo。 ip 否

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

该桶下创建文件夹目录用于后续存储代码使用，例如：training_data。创建VPC 虚拟私有云（Virtual Private Cloud）可以为您构建隔离的、用户自主配置和管理的虚拟网络环境，操作指导请参考创建虚拟私有云和子网。创建SFS Turbo SFS Turbo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
Lite Server资源开通 - AI开发平台ModelArts

常见的标准操作系统镜像，所有用户可见，包括操作系统以及预装的公共应用（SDI卡驱动、bms-network-config网络配置程序、Cloud-init初始化工具等）。请根据您的实际需要自助配置应用环境或相关软件。ModelArts服务提供镜像支持多种操作系统，内置AI场景相关

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

float”报错，按照报错提示修改为“float”即可。图1 预处理数据报错数据预处理完成标识。图2 数据预处理完成新建data目录并移动处理好的数据。 mkdir data mv meg-gpt2* ./data mv gpt2* ./data 步骤2 单机单卡训练本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
Yaml配置文件参数配置说明 - AI开发平台ModelArts

用于指定预处理数据的工作线程数。随着线程数的增加，预处理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
执行训练任务（推荐） - AI开发平台ModelArts

ascendfactory-cli train <cfgs_yaml_file> <model_name> <exp_name> # 指定设备卡数，如2卡 ASCEND_RT_VISIBLE_DEVICES=0,1 ascendfactory-cli train <cfgs_yaml_file>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
创建ModelArts数据增强任务 - AI开发平台ModelArts

路径下。 ModelArts提供以下数据扩增算子：表1 数据扩增算子介绍算子算子说明高级 AddNoise 添加噪声，模拟常见采集设备在采集图片过程中可能会产生的噪声。 noise_type：添加噪声的分布类型，Gauss为高斯噪声，Laplace为拉普拉斯噪声，Pois

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
错误码 - AI开发平台ModelArts
错误码 - AI开发平台ModelArts

service failed SMN服务访问失败系统错误，请联系技术支持。 500 ModelArts.5009 Database operation failed 数据库操作异常系统错误，请联系技术支持。 500 ModelArts.5010 OBS operation failed

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
执行训练任务 - AI开发平台ModelArts

必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数，这可以增加批次大小而不增加内存消耗

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
约束与限制 - AI开发平台ModelArts

nd训练场景下，默认要求填写作业日志在OBS的存放路径，其他资源的训练场景下，永久保存日志开关需要用户手动开启。仅专属资源池支持使用Cloud Shell登录训练容器，且训练作业必须处于“运行中”状态。在训练管理的“创建算法”页面，来源于AI Gallery中订阅的算法不支持另存为新算法。

帮助中心 > AI开发平台ModelArts > 产品介绍
Yaml配置文件参数配置说明 - AI开发平台ModelArts

用于指定预处理数据的工作线程数。随着线程数的增加，预处理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
Yaml配置文件参数配置说明 - AI开发平台ModelArts

用于指定预处理数据的工作线程数。随着线程数的增加，预处理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
执行训练任务 - AI开发平台ModelArts

必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数，这可以增加批次大小而不增加内存消耗

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
Yaml配置文件参数配置说明 - AI开发平台ModelArts

用于指定预处理数据的工作线程数。随着线程数的增加，预处理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明

总条数： 378

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备镜像 - AI开发平台ModelArts

ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

yaml配置文件参数配置说明 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

创建数据集 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

创建ModelArts数据增强任务 - AI开发平台ModelArts

错误码 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线