搜索_华为云

训练性能测试 - AI开发平台ModelArts

--num_nodes <nodes>：训练节点总个数 --rank <rank>：节点ID 训练完成后，test-benchmark目录下会生成训练日志及NPU利用率日志，如qwen2.5-7b日志。 qwen2.5-7b-sft-4096-lora-313T-20241028_164746-0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

Standard自动学习Standard Workflow 数据标注 ModelArts标注的数据存储在OBS中。自动训练训练作业结束后，其生成的模型存储在OBS中。部署上线 ModelArts将存储在OBS中的模型部署上线为在线服务。 Standard AI全流程开发数据管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作
Yaml配置文件参数配置说明 - AI开发平台ModelArts

true 用于指定是否覆盖缓存。如果设置为"overwrite_cache"，则在训练过程中覆盖缓存。这通常在数据集发生变化，或者需要重新生成缓存时使用 preprocessing_num_workers 16 用于指定预处理数据的工作线程数。随着线程数的增加，预处理的速度也会提高，但也会增加内存的使用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
推理性能测试 - AI开发平台ModelArts

/alpaca_data.json 方法二：使用generate_dataset.py脚本生成数据集方法： generate_dataset.py脚本通过指定输入输出长度的均值和标准差，生成一定数量的正态分布的数据。具体操作命令如下，可以根据参数说明修改参数。 cd benchmark_tools

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
推理性能测试 - AI开发平台ModelArts

/alpaca_data.json 方法二：使用generate_dataset.py脚本生成数据集方法： generate_dataset.py脚本通过指定输入输出长度的均值和标准差，生成一定数量的正态分布的数据。具体操作命令如下，可以根据参数说明修改参数。 cd benchmark_tools

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
开发用于预置框架训练的代码 - AI开发平台ModelArts

户代码和ModelArts Standard后台交互的桥梁。代码目录路径您需要在OBS桶中指定代码目录，并将训练代码、依赖安装包或者预生成模型等训练所需文件上传至该代码目录下。训练作业创建完成后，ModelArts会将代码目录及其子目录下载至后台容器中。例如：OBS路径“o

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
迁移效果校验 - AI开发平台ModelArts

的效果是否满足要求，通过对比原始onnx pipeline的最终输出结果确认迁移效果。如果精度和性能都没有问题，则代表迁移完成。对比图片生成效果在CPU上推理onnx，将原始onnx和适配完成的MindSpore Lite pipeline输出的结果图片进行对比，在这里保证输

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
训练性能测试 - AI开发平台ModelArts

<output_dir>： <可选>任务完成输出excel表格路径，默认为"./"当前所在路径。查看性能结果任务完成之后会在test-benchmark目录下生成excel表格：性能结果LLaMAFactory_train_performance_benchmark_<版本号>_<时间戳>.xlsx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
开启训练故障自动重启功能 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint接续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置接续训练，加载中断生成的checkpoint，中间不需要改动任何参数（支持预训练、LoRA微调、SFT微调）。如果要使用自动重启功能，资源规格必须选择八卡规格。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

接成/home/ma-user/），导致数据占满系统目录。系统目录仅支持系统功能基本运行，无法支持大数据存储。部分训练任务会在训练过程中生成checkpoint文件，并进行更新。如更新过程中，未删除历史的checkpoint文件，会导致/cache目录逐步被用完。实际存储空间足够，却依旧报错“No

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
训练启动脚本说明和参数配置 - AI开发平台ModelArts

程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

utput_dir}参数设置 |──{output_dir} # 输出目录，以下目录在训练过程中自动生成 |──converted_hf2mg_weight_TP${TP}PP${PP} # 训练过程Megatron格式权重

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
训练启动脚本说明和参数配置 - AI开发平台ModelArts

程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
执行训练任务（历史版本） - AI开发平台ModelArts

dFactory/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中，默认生成在“processed_for_input”文件夹下。若用户需要修改，可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务
推理性能测试 - AI开发平台ModelArts

ca_data.json 方法二：使用generate_dataset.py脚本生成数据集方法：客户通过业务数据，在generate_dataset.py脚本，指定输入输出长度的均值和标准差，生成一定数量的正态分布的数据。具体操作命令如下，可以根据参数说明修改参数。 cd benchmark_tools

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
LoRA微调训练 - AI开发平台ModelArts

果。示例中，默认生成在“processed_for_input”文件夹下。若用户需要修改，可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/ma-user/ws/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909）
SFT全参微调训练任务 - AI开发平台ModelArts

果。示例中，默认生成在“processed_for_input”文件夹下。若用户需要修改，可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/ma-user/ws/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910）
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

多卡训练时，需要依赖“rank_table_file”做卡间通信的配置文件，该文件自动生成，pod启动之后文件地址。为“/user/config/jobstart_hccl.json”，“/user/config/jobstart_hccl.json”配置文件生成需要一段时间，业务进程需要等待“/user/config/jobstart_hccl

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

在线服务”，单击生成的在线服务名称，即可进入在线服务详情页。在服务详情页，单击选择“预测”页签。图4 上传预测图片单击“上传”，选择一张需要预测的图片，单击“预测”，即可在右边的预测结果显示区查看您的预测结果。图5 预测样例图图6 查看预测结果本案例中数据和算法生成的模型仅适

 帮助中心 > AI开发平台ModelArts > 快速入门
LoRA微调训练 - AI开发平台ModelArts

果。示例中，默认生成在“processed_for_input”文件夹下。若用户需要修改，可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/ma-user/ws/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）

总条数： 880

上一页
1
...
31
32
33
...
44
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练性能测试 - AI开发平台ModelArts

创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

开发用于预置框架训练的代码 - AI开发平台ModelArts

迁移效果校验 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线