搜索_华为云

LoRA训练 - AI开发平台ModelArts
LoRA训练 - AI开发平台ModelArts

LoRA训练本章节介绍SDXL&SD 1.5模型的LoRA训练过程。LoRA训练是指在已经训练好的模型基础上，使用新的数据集进行LoRA微调以优化模型性能的过程。启动SD1.5 LoRA训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_lora_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
附录：Standard大模型推理常见问题 - AI开发平台ModelArts

附录：Standard大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory。解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
准备Notebook（可选） - AI开发平台ModelArts

准备Notebook（可选）本步骤为可选操作。ModelArts Notebook云上云下，无缝协同，更多关于ModelArts Notebook的详细资料请查看开发环境介绍。本案例中，如果用户需要自定义开发，可通过Notebook环境进行数据预处理、权重转换等操作。并且No

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910）
精度问题诊断 - AI开发平台ModelArts

精度问题诊断逐个替换模型，检测有问题的模型该方式主要是通过模型替换，先定位出具体哪个模型引入的误差，进一步诊断具体的模型中哪个算子或者操作导致效果问题，模型替换原理如下图所示。通过设置开关选项（是否使用onnx模型），控制模型推理时，模型使用的是onnx模型或是mindir的模型。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory 解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified max_model_len

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

准备权重获取对应模型的权重文件，获取链接参考表1。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
日志提示Compile graph failed - AI开发平台ModelArts

日志提示Compile graph failed 问题现象日志提示：Compile graph failed。图1 报错提示原因分析模型转换时未指定Ascend后端。处理方法需要在模型转换阶段指定“--device=Ascend”。父主题：常见问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
Notebook专属预置镜像列表 - AI开发平台ModelArts

Notebook专属预置镜像列表 ModelArts开发环境提供Docker容器镜像，可作为预构建容器运行。预置镜像里面包含PyTorch，Tensorflow，MindSpore等常用AI引擎框架，镜像命名以AI引擎为主，并且每个镜像里面都预置了很多常用包，用户可以直接使用而无需重新安装。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
mox.file与本地接口的对应关系和切换 - AI开发平台ModelArts

mox.file与本地接口的对应关系和切换 API对应关系 Python：指本地使用Python对本地文件的操作接口。支持一键切换为对应的MoXing文件操作接口（mox.file）。 mox.file：指MoXing框架中用于文件操作的接口，其与python接口一一对应关系。 tf

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
在Windows上安装配置Grafana - AI开发平台ModelArts

在Windows上安装配置Grafana 适用场景本章节适用于在Windows操作系统的PC中安装配置Grafana。操作步骤下载Grafana安装包。进入下载链接，单击Download the installer，等待下载成功即可。安装Grafana。双击安装包，按照指示流程安装完成即可。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
如何将多个物体检测的数据集合并成一个数据集？ - AI开发平台ModelArts

如何将多个物体检测的数据集合并成一个数据集？可以在OBS桶中创建一个父级目录，目录下面设置不同的文件夹，将多个数据集分别导出到这些文件夹里面，最后用父目录创数据集即可。登录ModelArts管理控制台，选择“数据管理>数据集”进入数据集概览页，单击右上角“导出”，将对应的数据

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？问题现象在Notebook里保存镜像时报错“container size %dG is greater than threshold %dG”。原因分析

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
下载JupyterLab文件到本地 - AI开发平台ModelArts

下载JupyterLab文件到本地在JupyterLab中开发的文件，可以下载至本地。关于如何上传文件至JupyterLab，请参见上传文件至JupyterLab。不大于100MB的文件，可以直接从JupyterLab中下载到本地，具体操作请参见从JupyterLab中下载不大于100MB的文件至本地。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911）
训练脚本说明参考 - AI开发平台ModelArts

训练脚本说明参考训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909）

总条数： 2647

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

LoRA训练 - AI开发平台ModelArts

附录：Standard大模型推理常见问题 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

准备Notebook（可选） - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

精度问题诊断 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

日志提示Compile graph failed - AI开发平台ModelArts

Notebook专属预置镜像列表 - AI开发平台ModelArts

mox.file与本地接口的对应关系和切换 - AI开发平台ModelArts

在Windows上安装配置Grafana - AI开发平台ModelArts

如何将多个物体检测的数据集合并成一个数据集？ - AI开发平台ModelArts

镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

下载JupyterLab文件到本地 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

训练脚本说明参考 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线