搜索_华为云

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）场景介绍准备工作执行预训练任务执行SFT全参微调训练任务执行LoRA微调训练任务查看日志和性能训练脚本说明参考常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
训练脚本说明参考 - AI开发平台ModelArts

训练脚本说明参考训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明离线训练安装包准备说明父主题：主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）场景介绍准备工作执行训练任务查看日志和性能训练benchmark工具训练脚本说明附录：训练常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
准备工作 - AI开发平台ModelArts
准备工作 - AI开发平台ModelArts

准备工作准备环境准备代码准备镜像环境 DockerFile构建镜像（可选）准备数据（可选）父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
训练benchmark工具 - AI开发平台ModelArts

训练benchmark工具工具介绍及准备工作训练性能测试训练精度测试父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明 Yaml配置文件参数配置说明模型NPU卡数、梯度累积值取值表各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明录制Profiling 父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
准备工作 - AI开发平台ModelArts
准备工作 - AI开发平台ModelArts

准备工作准备资源准备数据准备权重准备代码准备镜像准备Notebook（可选）父主题：主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）场景介绍准备工作执行预训练任务执行SFT全参微调训练任务执行LoRA微调训练任务查看日志和性能训练脚本说明参考常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
训练脚本说明参考 - AI开发平台ModelArts

训练脚本说明参考训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明离线训练安装包准备说明父主题：主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误父主题：主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
如何解决训练过程中出现的cudaCheckError错误？ - AI开发平台ModelArts

available for execution on the device 原因分析因为编译的时候需要设置setup.py中编译的参数arch和code和电脑的显卡匹配。解决方法对于GP Vnt1的显卡，GPU算力为-gencode arch=compute_70,code=[sm_70,compute_70]，设置setup

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
Notebook提示磁盘空间已满 - AI开发平台ModelArts

用内存，导致磁盘空间不足。磁盘配额不足。处理方法查看虚拟机所使用的存储空间，再查看回收站文件占用内存，根据实际删除回收站里不需要的大文件。在Notebook实例详情页，查看实例的存储容量。执行如下命令，排查虚拟机所使用的存储空间，一般接近存储容量，请排查回收站占用内存。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
模型训练存储加速 - AI开发平台ModelArts

模型训练存储加速针对AI训练场景中大模型Checkpoint保存和加载带来的I/O挑战，华为云提供了基于对象存储服务OBS+高性能弹性文件服务SFS Turbo的AI云存储解决方案，如下图所示。 SFS Turbo HPC型支持和OBS数据联动，您可以通过SFS Turbo H

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

对于OBS连接不稳定的现象，通过增加代码来解决。您可以在代码最前面增加如下代码，让TensorFlow对ckpt和summary的读取和写入可以通过本地缓存的方式中转解决： import moxing.tensorflow as mox mox.cache() 父主题： OBS操作相关故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
推理性能测试 - AI开发平台ModelArts

HuggingFace的权重路径。如果服务部署在Notebook中，该参数为Notebook中权重路径；如果服务部署在生产环境中，该参数为本地模型权重路径。 --served-model-name：仅在以openai接口启动服务时需要该参数。如果服务部署在Notebook中，该参

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。获取路径：Support-E 请联系您所在企业的华为方技术支持下载获取。模型软件包结构说明 AscendCloud-6.3.906代码包中AscendCloud-LLM代码包结构介绍如下，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
推理性能测试 - AI开发平台ModelArts

HuggingFace的权重路径。如果服务部署在Notebook中，该参数为Notebook中权重路径；如果服务部署在生产环境中，该参数为本地模型权重路径。 --served-model-name：仅在以openai接口启动服务时需要该参数。如果服务部署在Notebook中，该参

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）

总条数： 1349

上一页
1
...
47
48
49
...
68
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

训练脚本说明参考 - AI开发平台ModelArts

主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

准备工作 - AI开发平台ModelArts

训练benchmark工具 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

准备工作 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

训练脚本说明参考 - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

如何解决训练过程中出现的cudaCheckError错误？ - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线