搜索_华为云

预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。如果用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
训练脚本说明 - AI开发平台ModelArts

训练脚本说明 yaml配置文件参数配置说明各个模型深度学习训练加速框架的选择模型NPU卡数取值表各个模型训练前文件替换父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
如何保证训练和调试时文件路径保持一致 - AI开发平台ModelArts

如何保证训练和调试时文件路径保持一致云上挂载路径 Notebook中挂载SFS后，SFS默认在“/home/ma-user/work”路径下。在创建训练作业时，设置SFS Turbo的“云上挂载路径”为“/home/ma-user/work”，使得训练环境下SFS也在“/home/ma-user/work”路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
创建物体检测项目 - AI开发平台ModelArts

数据集。具体操作请参考创建ModelArts数据集。 “输出路径” 选择自动学习数据输出的统一OBS路径。说明： “输出路径”是存储自动学习在运行过程中所有产物的路径。 “训练规格” 选择自动学习训练节点所使用的资源规格，以实际界面显示为准，将会根据不同的规格计费。说明：只有北京四区域支持限时免费规格。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
创建文本分类项目 - AI开发平台ModelArts

数据集。具体操作请参考创建ModelArts数据集。 “输出路径” 选择自动学习数据输出的统一OBS路径。说明： “输出路径”是存储自动学习在运行过程中所有产物的路径。 “训练规格” 选择自动学习训练节点所使用的资源规格，以实际界面显示为准，将会根据不同的规格计费。说明：只有北京四区域支持限时免费规格。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
使用自动学习实现物体检测 - AI开发平台ModelArts

使用自动学习实现物体检测准备物体检测数据创建物体检测项目标注物体检测数据训练物体检测模型部署物体检测服务父主题：使用自动学习实现零代码AI开发

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发
数据集版本不合格 - AI开发平台ModelArts

是不满足自动学习训练作业要求，因此出现数据集版本不合格的错误提示。标注信息不满足训练要求针对不同类型的自动学习项目，训练作业对数据集的要求如下。图像分类：用于训练的图片，至少有2种以上的分类（即2种以上的标签），每种分类的图片数不少于5张。物体检测：用于训练的图片，至少有

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据
准备预测分析数据 - AI开发平台ModelArts

标签列指的是在训练作业中被指定为训练目标的列，即最终通过该数据集训练得到模型时的输出（预测项）。除标签列外数据集中至少还应包含两个有效特征列（列的取值至少有两个且数据缺失比例低于10%）。当前由于特征筛选算法限制，预测数据列建议放在数据集最后一列，否则可能导致训练失败。表格数据集示例：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
BF16和FP16说明 - AI开发平台ModelArts

而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
使用自动学习实现图像分类 - AI开发平台ModelArts

使用自动学习实现图像分类准备图像分类数据创建图像分类项目标注图像分类数据训练图像分类模型部署图像分类服务父主题：使用自动学习实现零代码AI开发

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

nizer文件，具体请参见训练tokenizer文件说明。 Step2 创建预训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。图1 选择镜像训练作业启动命令中输入： cd

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）
创建图像分类项目 - AI开发平台ModelArts

数据集。具体操作请参考创建ModelArts数据集。 “输出路径” 选择自动学习数据输出的统一OBS路径。说明： “输出路径”是存储自动学习在运行过程中所有产物的路径。 “训练规格” 选择自动学习训练节点所使用的资源规格，以实际界面显示为准，将会根据不同的规格计费。说明：只有北京四区域支持限时免费规格。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
查看训练作业日志 - AI开发平台ModelArts

查看训练作业日志训练日志定义训练日志用于记录训练作业运行过程和异常信息，为快速定位作业运行中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时，可首先查看日志，多数场景下的问题可以通过日志报错信息直接定位。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
训练场景和方案介绍 - AI开发平台ModelArts

5模型的训练过程，包括Finetune训练、LoRA训练和Controlnet训练。约束限制本方案目前仅适用于企业客户。本文档适配昇腾云ModelArts 6.3.908版本，请参考表1获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。 Finetune训练使用单机8卡资源。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
BF16和FP16说明 - AI开发平台ModelArts

而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明

总条数： 1051

上一页
1
...
6
7
8
...
53
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

预训练 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

如何保证训练和调试时文件路径保持一致 - AI开发平台ModelArts

创建物体检测项目 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

创建文本分类项目 - AI开发平台ModelArts

使用自动学习实现物体检测 - AI开发平台ModelArts

数据集版本不合格 - AI开发平台ModelArts

准备预测分析数据 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

使用自动学习实现图像分类 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

创建图像分类项目 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线