搜索_华为云

准备模型训练代码 - AI开发平台ModelArts

准备模型训练代码预置框架启动文件的启动流程说明开发用于预置框架训练的代码开发用于自定义镜像训练的代码自定义镜像训练作业配置节点间SSH免密互信父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
重建、停止或删除训练作业 - AI开发平台ModelArts

当对创建的训练作业不满意时，您可以单击操作列的重建，重新创建训练作业。在重创训练作业页面，会自动填入上一次训练作业设置的参数，您仅需在原来的基础上进行修改即可重新创建训练作业。停止训练作业在训练作业列表中，针对“创建中”、“等待中”、“运行中”的训练作业，您可以单击“操作”列的“终止”，停止正在运行中的训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
训练日志失败分析 - AI开发平台ModelArts

训练日志失败分析在ModelArts Standard中训练作业遇到问题时，可首先查看日志，多数场景下的问题可以通过日志报错信息直接定位。 ModelArts Standard提供了训练作业失败定位与分析功能，如果训练作业运行失败，ModelArts会自动识别导致作业失败的原因

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
查看训练作业标签 - AI开发平台ModelArts

查看训练作业标签通过给训练作业添加标签，可以标识云资源，便于快速搜索训练作业。在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单击“标签”页签查看标签信息。支持添加、修改

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

Shell中单击回车键即可恢复正常。图3 路径异常如何使训练作业保持运行中状态由于需要训练作业处于“运行中”状态才能登录Cloud Shell，因此本文介绍如何使训练作业保持运行中状态，方便您快速通过Cloud Shell登录运行中的训练容器。通过Sleep命令使训练作业保持运行如果训练作业使用的是预置框架：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
ModelArts训练好后的模型如何获取？ - AI开发平台ModelArts

ModelArts训练好后的模型如何获取？使用自动学习产生的模型只能在ModelArts上部署上线，无法下载至本地使用。使用自定义算法或者订阅算法训练生成的模型，会存储至用户指定的OBS路径中，供用户下载。父主题：功能咨询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
查看训练作业详情 - AI开发平台ModelArts

查看训练作业详情登录ModelArts管理控制台。在左侧导航栏中，选择“模型训练 > 训练作业”，进入“训练作业”列表。在作业列表，单击“导出”，可以将训练作业根据时间周期导出Excel表到本地。最多只支持导出前200行数据。在“训练作业”列表中，单击作业名称，进入训练作业详情页。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
设置断点续训练 - AI开发平台ModelArts

ckpt的代码，使能读取前一次训练保存的预训练模型。 ModelArts Standard中如何实现断点续训练在ModelArts Standard训练中实现断点续训练或增量训练，建议使用“训练输出”功能。在创建训练作业时，设置训练“输出”参数为“train_url”，在指定的训练输出的数据存

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

预训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中，具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置以llama2-13b预训练为例，执行脚本0_pl_pretrain_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
训练作业卡死检测 - AI开发平台ModelArts

训练作业卡死检测什么是训练作业卡死检测训练作业在运行中可能会因为某些未知原因导致作业卡死，如果不能及时发现，就会导致无法及时释放资源，从而造成极大的资源浪费。为了节省训练资源成本，提高使用体验，ModelArts提供了卡死检测功能，能自动识别作业是否卡死，并在日志详情界面上展

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
查看训练作业事件 - AI开发平台ModelArts

训练作业创建失败报错：准备阶段超时。可能原因是跨区域算法同步或者创建共享存储超时训练作业已排队，正在等待资源分配训练作业排队失败训练作业开始运行训练作业运行成功训练作业运行失败训练作业被抢占系统检测到您的作业疑似卡死，请及时前往作业详情界面查看并处理训练作业已重启

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
LLaVA模型基于DevServer适配PyTorch NPU预训练指导（6.3.906） - AI开发平台ModelArts

LaVA 修改训练脚本模型路径(--model_name_or_path 模型路径)。 vim ./scripts/v1_5/pretrain_new.sh 运行训练脚本，默认是单机8卡。 bash ./scripts/v1_5/pretrain_new.sh 训练完成后，权重文

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint接续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置接续训练，加载中断生成的checkpoint，中间不需要改动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.911）
各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。 falcon-11B模型在训练开始前，针对falcon-11B模型中的tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。 falcon-11B模型在训练开始前，针对falcon-11B模型中的tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。 falcon-11B模型在训练开始前，针对falcon-11B模型中的tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

job-dir/code/train.py 使用Ascend自定义镜像训练时的训练代码适配规范使用NPU资源创建训练作业时，系统会在训练容器里自动生成Ascend HCCL RANK_TABLE_FILE文件。当使用预置框架创建训练作业时，在训练过程中预置框架会自动解析Ascend

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
AIGC模型训练推理 - AI开发平台ModelArts

AIGC模型训练推理 FlUX.1基于DevServer适配PyTorch NPU推理指导（6.3.911） FLUX.1基于DevSever适配PyTorch NPUFintune&Lora训练指导（6.3.911） Llama 3.2-Vision基于DevServer适配Pytorch

帮助中心 > AI开发平台ModelArts > 最佳实践
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置接续训练，加载中断生成的checkpoint，中间不需要改

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.911）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

llama2-13b 输入选择训练的模型名称。 RUN_TYPE pretrain 表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE GeneralPretrainHandler 示例值需要根据数据集的不同，选择其一。 GeneralPretrainHandler：使用预训练的alpaca数据集。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）

总条数： 2652

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备模型训练代码 - AI开发平台ModelArts

重建、停止或删除训练作业 - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

查看训练作业标签 - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

ModelArts训练好后的模型如何获取？ - AI开发平台ModelArts

查看训练作业详情 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

查看训练作业事件 - AI开发平台ModelArts

LLaVA模型基于DevServer适配PyTorch NPU预训练指导（6.3.906） - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

AIGC模型训练推理 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线