搜索_华为云

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）场景介绍准备工作执行预训练任务执行SFT全参微调训练任务执行LoRA微调训练任务查看日志和性能训练脚本说明参考常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）场景介绍准备工作执行训练任务查看日志和性能训练benchmark工具训练脚本说明附录：训练常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
准备工作 - AI开发平台ModelArts
准备工作 - AI开发平台ModelArts

准备工作准备环境准备代码准备镜像环境 DockerFile构建镜像（可选）准备数据（可选）父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
训练benchmark工具 - AI开发平台ModelArts

训练benchmark工具工具介绍及准备工作训练性能测试训练精度测试父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明 Yaml配置文件参数配置说明模型NPU卡数、梯度累积值取值表各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明录制Profiling 父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
准备工作 - AI开发平台ModelArts
准备工作 - AI开发平台ModelArts

准备工作准备资源准备数据准备权重准备代码准备镜像准备Notebook（可选）父主题：主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）场景介绍准备工作执行预训练任务执行SFT全参微调训练任务执行LoRA微调训练任务查看日志和性能训练脚本说明参考常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误父主题：主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
训练性能测试 - AI开发平台ModelArts

<cfgs_yaml_file>：性能测试配置的yaml文件地址，指代码目录中performance_cfgs.yaml相对或绝对路径，此配置文件为训练最优配置参数。 --baseline <baseline>：<可选>GP-Ant8机器性能基线yaml文件路径，用户可自行修改，不填则使用工具自带基线配置，默认基线配置样例如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
（可选）工作空间配置 - AI开发平台ModelArts

ModelArts支持设置子用户的细粒度权限、不同工作空间之间资源隔离。ModelArts工作空间帮您实现项目资源隔离、多项目分开结算等功能。如果您开通了企业项目管理服务的权限，可以在创建工作空间的时候绑定企业项目ID，并在企业项目下添加用户组，为不同的用户组设置细粒度权限供组里的用户使用。如

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

data.json，数据大小：43.6 MB。自定义数据用户也可以自行准备训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

的高性能表现，让客户能够更加聚焦于业务逻辑与创新应用的设计。资源易获取，按需收费，按需扩缩，支撑故障快恢与断点续训企业在具体使用大模型接入企业应用系统的时候，不仅要考虑模型体验情况，还需要考虑模型具体的精度效果，和实际应用成本。 MaaS提供灵活的模型开发能力，同时基于昇腾云

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

ModelArts作为华为云上的AI开发平台，提供交互式云上开发环境，包含标准化昇腾算力资源和完整的迁移工具链，帮助用户完成昇腾迁移的调测过程，进一步可在平台上将迁移的模型一键部署成为在线服务向外提供推理服务，或者运行到自己的运行环境中。 MindSpore Lite 华为自研的AI推理引擎，后端对于昇腾有充分的适

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
msprobe精度分析工具使用指导 - AI开发平台ModelArts

randn在GPU和NPU上固定随机种子后，仍然生成不同的随机张量。对于上述场景，用户需要将网络中的randn在CPU上完成后再转到对应device。例如，StableDiffusion中需要在forward过程中逐步生成随机噪声。这样在Host侧生成的随机张量能够保证一样，搬移到NPU或者GPU设备上仍然一样。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
镜像在SWR上显示只有13G，安装少量的包，然后镜像保存过程会提示超过35G大小保存失败，为什么？ - AI开发平台ModelArts

35G大小保存失败，为什么？问题现象我的镜像在SWR侧看，只有13G左右，在开发环境Notebook镜像管理注册，启动Notebook实例后，安装一些包后，镜像保存过程会提示超过35G大小，保存失败？原因分析 SWR侧看到的大小是镜像压缩后的大小，解压后实际大小一般是压缩后的2

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
创建可视化作业 - AI开发平台ModelArts

project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求消息请求参数如表2所示。表2 请求参数参数是否必选参数类型说明 job_name 是 String 可视化作业名称。限制为1-20位只含数字，字母，下划线，中划线的名称。 job_desc

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
OBS管理 - AI开发平台ModelArts
OBS管理 - AI开发平台ModelArts

OBS管理 OBS管理概述文件传输（推荐）上传文件至OBS 上传文件夹至OBS 从OBS下载文件从OBS下载文件夹

 帮助中心 > AI开发平台ModelArts > SDK参考

总条数： 2470

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

准备工作 - AI开发平台ModelArts

训练benchmark工具 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

准备工作 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

（可选）工作空间配置 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

简介 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

镜像在SWR上显示只有13G，安装少量的包，然后镜像保存过程会提示超过35G大小保存失败，为什么？ - AI开发平台ModelArts

创建可视化作业 - AI开发平台ModelArts

OBS管理 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线