搜索_华为云

重建、停止或删除训练作业 - AI开发平台ModelArts

当对创建的训练作业不满意时，您可以单击操作列的重建，重新创建训练作业。在重创训练作业页面，会自动填入上一次训练作业设置的参数，您仅需在原来的基础上进行修改即可重新创建训练作业。停止训练作业在训练作业列表中，针对“创建中”、“等待中”、“运行中”的训练作业，您可以单击“操作”列的“终止”，停止正在运行中的训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
训练日志失败分析 - AI开发平台ModelArts

训练日志失败分析在ModelArts Standard中训练作业遇到问题时，可首先查看日志，多数场景下的问题可以通过日志报错信息直接定位。 ModelArts Standard提供了训练作业失败定位与分析功能，如果训练作业运行失败，ModelArts会自动识别导致作业失败的原因

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

heckpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

Shell中单击回车键即可恢复正常。图3 路径异常如何使训练作业保持运行中状态由于需要训练作业处于“运行中”状态才能登录Cloud Shell，因此本文介绍如何使训练作业保持运行中状态，方便您快速通过Cloud Shell登录运行中的训练容器。通过Sleep命令使训练作业保持运行如果训练作业使用的是预置框架：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
训练作业卡死检测 - AI开发平台ModelArts

训练作业卡死检测什么是训练作业卡死检测训练作业在运行中可能会因为某些未知原因导致作业卡死，如果不能及时发现，就会导致无法及时释放资源，从而造成极大的资源浪费。为了节省训练资源成本，提高使用体验，ModelArts提供了卡死检测功能，能自动识别作业是否卡死，并在日志详情界面上展

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
模型仓库 - 网络智能体
模型仓库 - 网络智能体

支持用户通过本地上传或者AI市场导入的方式，导入模型包。 2 模型包名称模型包的名称。版本模型包生成时的版本。模型类型模型的AI算法框架类型。运行环境 AI算法框架匹配的Python语言版本。创建时间模型包生成的时间。来源模型包的来源。包括模型训练服务、本地上传和AI市场导入三种来源。

帮助中心 > 网络智能体 > 模型训练服务 > 用户指南 > 云端推理框架
编辑训练代码（简易编辑器） - 网络智能体

方式搜索日志。：将当前训练工程加入训练。：返回到当前训练工程所在的“模型训练”页面。训练任务：查看训练任务的运行状态。可以查看训练任务的运行日志以及训练报告，删除训练任务。也可以在任务执行过程中单击暂停训练任务。 3 代码目录：包含日志文件夹、模型文件存放文件夹、调试文件、requirements

帮助中心 > 网络智能体 > 模型训练服务 > 用户指南 > 模型训练 > 创建模型训练工程
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

job-dir/code/train.py 使用Ascend自定义镜像训练时的训练代码适配规范使用NPU资源创建训练作业时，系统会在训练容器里自动生成Ascend HCCL RANK_TABLE_FILE文件。当使用预置框架创建训练作业时，在训练过程中预置框架会自动解析Ascend

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
创建CV大模型训练任务 - 盘古大模型 PanguLargeModels

选择所需微调的基础模型。训练参数数据集训练数据集。自定义L1预训练模型目录自定义预训练模型所在的OBS路径。训练轮数表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。是否使用自定义L1预训练模型是否使用自定义预训练模型进行训练，模型为用户与服务共建，详情请联系客服。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古CV大模型 > 训练CV大模型
模型训练使用流程 - AI开发平台ModelArts

模型训练必备要素包括训练代码、训练框架、训练数据。训练代码包含训练作业的启动文件或启动命令、训练依赖包等内容。当使用预置框架创建训练作业时，训练代码的开发规范可以参考开发用于预置框架训练的代码。当使用自定义镜像创建训练作业时，训练代码的开发规范可以参考开发用于自定义镜像训练的代码。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
如何将在ModelArts中训练好的模型下载或迁移到其他账号？ - AI开发平台ModelArts

如何将在ModelArts中训练好的模型下载或迁移到其他账号？通过训练作业训练好的模型可以下载，然后将下载的模型上传存储至其他账号对应区域的OBS中。获取模型下载路径登录ModelArts管理控制台，在左侧导航栏中选择“模型训练 > 训练作业”，进入“训练作业”列表。在训

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前，针对ChatGLMv3-6B模型中的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
前提条件 - 网络智能体
前提条件 - 网络智能体

前提条件已经注册华为云账号。已经创建IAM用户。已经订购过NAIE模型训练服务。父主题：使用模型训练服务快速训练算法模型

 帮助中心 > 网络智能体 > 模型训练服务 > 快速入门 > 使用模型训练服务快速训练算法模型
查看NLP大模型训练状态与指标 - 盘古大模型 PanguLargeModels

查看NLP大模型训练状态与指标模型启动训练后，可以在模型训练列表中查看训练任务的状态，单击任务名称可以进入详情页查看训练结果、训练任务详情和训练日志。查看模型训练状态在模型训练列表中查看训练任务的状态，各状态说明详见表1。表1 训练状态说明训练状态训练状态含义初始化

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 训练NLP大模型
模型训练 - 网络智能体
模型训练 - 网络智能体

模型训练导入SDK 选择数据特征画像模型选择训练模型测试模型开发推理归档模型父主题： KPI异常检测学件服务

 帮助中心 > 网络智能体 > 模型训练服务 > 学件开发指南 > KPI异常检测学件服务
访问模型训练服务 - 网络智能体

用户也可以直接通过账号登录。首次登录后请及时修改密码，并定期修改密码。单击“登录”，进入NAIE服务官网。依次选择“AI服务 > AI服务 > 模型训练服务 > 模型训练服务”，进入模型训练服务介绍页面。单击“进入服务”，进入模型训练服务页面。父主题：准备工作

 帮助中心 > 网络智能体 > 模型训练服务 > 用户指南 > 准备工作
数据集 - 网络智能体
数据集 - 网络智能体

HardDisk-Detect_Train_Good.csv：无故障硬盘训练数据 HardDisk-Detect_Train_Fail.csv：故障硬盘训练数据 HardDisk-Detect_Test_Good.csv：无故障硬盘测试数据 HardDisk-Detect_Test_Fail.csv：故障硬盘测试数据

 帮助中心 > 网络智能体 > 模型训练服务 > 快速入门 > 使用模型训练服务快速训练算法模型
CV大模型训练流程与选择建议 - 盘古大模型 PanguLargeModels

CV大模型训练流程与选择建议 CV大模型训练流程介绍目前，CV大模型支持微调训练。微调阶段：微调阶段通过在特定领域的数据集上进一步训练，使模型能够更有效地应对具体的任务需求。在微调过程中，通过设定训练指标来监控模型的表现，确保其达到预期的效果。完成微调后，将对用户模型进行评估

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古CV大模型 > 训练CV大模型
操作流程 - 网络智能体
操作流程 - 网络智能体

操作流程模型训练服务操作流程如操作流程图所示。图1 操作流程图父主题：使用模型训练服务快速训练算法模型

 帮助中心 > 网络智能体 > 模型训练服务 > 快速入门 > 使用模型训练服务快速训练算法模型
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

成训练模型。如果未生成model文件夹或者训练模型，可能是训练输入数据不完整导致，请检查训练数据上传是否完整，并重新训练。图4 训练输出路径 Step5 推理部署模型训练完成后，可以创建模型，将模型部署为在线服务。在ModelArts管理控制台，单击左侧导航栏中的“模型管理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练

总条数： 10000

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

重建、停止或删除训练作业 - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

模型仓库 - 网络智能体

编辑训练代码（简易编辑器） - 网络智能体

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

创建CV大模型训练任务 - 盘古大模型 PanguLargeModels

模型训练使用流程 - AI开发平台ModelArts

如何将在ModelArts中训练好的模型下载或迁移到其他账号？ - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

前提条件 - 网络智能体

查看NLP大模型训练状态与指标 - 盘古大模型 PanguLargeModels

模型训练 - 网络智能体

访问模型训练服务 - 网络智能体

数据集 - 网络智能体

CV大模型训练流程与选择建议 - 盘古大模型 PanguLargeModels

操作流程 - 网络智能体

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线