搜索_华为云

执行LoRA微调训练任务 - AI开发平台ModelArts

手动修改训练参数和tokenizer文件，具体请参见训练tokenizer文件说明。由于模型中LoRA微调训练存在已知的精度问题，因此不支持TP(tensor model parallel size)张量模型并行策略，推荐使用PP(pipeline model parallel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）
执行LoRA微调训练任务 - AI开发平台ModelArts

手动修改训练参数和tokenizer文件，具体请参见训练tokenizer文件说明。由于模型中LoRA微调训练存在已知的精度问题，因此不支持TP(tensor model parallel size)张量模型并行策略，推荐使用PP(pipeline model parallel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
查询训练作业的运行指标 - AI开发平台ModelArts

Estimator初始化参数说明参数是否必选参数类型描述 session 是 Object 会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
训练作业容错检查 - AI开发平台ModelArts

场景一：环境预检测失败、硬件检测出现故障，系统隔离所有故障节点并重新下发训练作业。图1 预检失败&硬件故障场景二：环境预检测失败、硬件无故障，系统随机再分配节点并重新下发训练作业。图2 预检失败&硬件正常场景三：环境预检测成功并进入用户业务阶段，硬件检测出现故障并且用户业务非正常退出，系统隔离所有故障节点并重新下发训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

/home/ma-user/etc/ssh_host_rsa_key0 将准备好的sshd启动脚本文件上传至OBS的训练代码目录下。创建自定义镜像训练作业。 “代码目录”选择存有sshd启动脚本文件的OBS地址。 “启动命令”需要适配sshd启动脚本，如下所示： bash ${MA_JOB_DI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
准备BF16权重 - AI开发平台ModelArts

set_default_dtype(torch.bfloat16) os.makedirs(bf16_path, exist_ok=True) model_index_file = os.path.join(fp8_path, "model.safetensors

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 准备权重
删除训练作业 - AI开发平台ModelArts

id") 方式二：根据创建训练作业生成的训练作业对象删除。 job_instance.delete_job() 参数说明表1 delete_job_by_id请求参数说明参数是否必选参数类型描述 session 是 Object 会话对象，初始化方法请参考Session鉴权。 job_id

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
附录：微调训练常见问题 - AI开发平台ModelArts

问题3：训练过程报错：ImportError: XXX not found in your environment: flash_attn 根因：昇腾环境暂时不支持flash_attn接口规避措施：修改dynamic_module_utils.py文件，将180-184行代码注释掉 vim /hom

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

─────────────────────────────────────────────────────────────────╯ 具体支持如下使用场景：下载单个文件下载多个文件下载文件到指定路径下载单个AI Gallery仓库准备工作获取“repo_id”和待下载的文件名。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
日志提示"write line error" - AI开发平台ModelArts

处理方法如果在训练作业的工作目录下有core文件生成，可以在启动脚本最前面加上如下代码，来关闭core文件产生。 import os os.system("ulimit -c 0") 排查数据集大小，checkpoint保存文件大小，是否占满了磁盘空间。必现的问题，使用本

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
在线服务预测报错DL.0105 - AI开发平台ModelArts

0105，报错日志：“TypeError:‘float’object is not subscriptable”。原因分析根据报错日志分析，是因为一个float数据被当做对象下标访问了。处理方法将模型推理代码中的x[0][i]修改为x[i]，重新部署服务进行预测。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” - AI开发平台ModelArts

MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” 问题现象使用mindspore进行训练时，出现如下报错： [ERROR] RUNTIME(3002)model execute error, retCode=0x91

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
准备镜像环境 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
精度问题概述 - AI开发平台ModelArts

为了更好地了解这种计算差异，并且能够正确区分正常计算差异和引起模型精度问题的异常差异，本指南提供了算子问题定位工具集详细的使用场景和使用步骤，方便用户自行或在支持下排查可能的数值计算精度问题。当用户将大语言模型或者其他类型深度神经网络的训练从GPU迁移到昇腾AI处理器时，可能出现以下不同现象的模型精度问题。一般包括：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
剪枝 - AI开发平台ModelArts
剪枝 - AI开发平台ModelArts

可以在几乎不影响推理精度情况下，可以有效提升推理性能（吞吐等）。本文主要应用FASP对LLM进行剪枝压缩。约束限制 FASP剪枝当前仅支持Llama系列、Llama2系列、Llama3系列、Qwen2系列的NLP模型。安装AscendModelNano AscendMode

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

如果当前资源池的资源确实不够，也可以考虑将资源池扩容后再进行服务部署。公共资源池扩容，请联系系统管理员。专属资源池扩容，可参考扩缩容资源池。如果磁盘空间不够，可以尝试重试，使实例调度到其他节点。如果单实例仍磁盘空间不足，请联系系统管理员，更换合适的规格。如果是大模型导入的模型部署服务，请确保专属资源池磁盘空间大于1T（1000GB）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
准备镜像环境 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
准备镜像环境 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
准备镜像环境 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
训练启动脚本说明和参数配置 - AI开发平台ModelArts

不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量文本序列长度并行参数设置规格与节点数 1 llama2 llama2-7b SEQ_LEN=4096 TP(tensor

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明

总条数： 2188

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

准备BF16权重 - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

在线服务预测报错DL.0105 - AI开发平台ModelArts

MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

精度问题概述 - AI开发平台ModelArts

剪枝 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线