搜索_华为云

查询训练作业列表 - AI开发平台ModelArts

node_count Integer 训练作业选择的资源副本数。最小值：1 pool_id String 训练作业选择的资源池ID。 flavor_detail flavor_detail object 训练作业、算法的规格信息。表45 flavor_detail 参数参数类型描述 flavor_type

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

预训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中，具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置以llama2-13b预训练为例，执行脚本0_pl_pretrain_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
预训练超参配置 - AI开发平台ModelArts

预训练超参配置本章节介绍预训练前的超参配置，可以根据实际需要修改。预训练脚本baichuan2.sh，存放在“6.3.904-Ascend/llm_train/AscendSpeed/scripts/baichuan2”目录下。训练前，可以根据实际需要修改超参配置。表1 超参配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
训练作业性能问题 - AI开发平台ModelArts

训练作业性能问题训练作业性能降低父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
模型训练 - AI开发平台ModelArts
模型训练 - AI开发平台ModelArts

模型训练自动学习训练作业失败父主题：自动学习

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习
创建训练作业镜像保存任务 - AI开发平台ModelArts

training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。请求参数表2 请求Body参数参数是否必选参数类型描述 name 否 String 镜像名

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
更新训练作业描述 - AI开发平台ModelArts

Object 会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。表2 update_job_configs请求参数说明参数

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
创建训练作业版本 - AI开发平台ModelArts

创建训练作业版本功能介绍创建一个训练作业版本。该接口为异步接口，作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions 参数说明如表1所示。表1 参数说明

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
查询训练作业版本详情 - AI开发平台ModelArts

Integer 训练作业worker的个数。 data_url String 训练作业的数据集。 train_url String 训练作业输出文件OBS路径。 log_url String 训练作业的日志OBS输出路径URL，默认为空。如：“/usr/train/”。 dataset_version_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
Standard模型训练 - AI开发平台ModelArts

如何在ModelArts训练作业中加载部分训练好的参数？ ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办？在ModelArts训练代码中，如何获取依赖文件所在的路径？自如何获取ModelArts训练容器中的文件实际路径？ ModelArts训练中不同规

 帮助中心 > AI开发平台ModelArts > 常见问题
训练作业运行失败 - AI开发平台ModelArts

训练作业运行失败训练作业运行失败排查指导训练作业运行失败，出现NCCL报错自定义镜像训练作业失败定位思路使用自定义镜像创建的训练作业一直处于运行中使用自定义镜像创建训练作业找不到启动文件训练作业的监控内存指标持续升高直至作业失败订阅算法物体检测YOLOv3_ResN

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
训练作业运行失败排查指导 - AI开发平台ModelArts

原因：Moxing在进行文件复制时，未找到train_data_obs目录。处理建议：修改train_data_obs目录为正确地址，重新启动训练作业。另外在Moxing下载OBS对象过程中，不要删除相应OBS目录下的对象，否则Moxing在下载到被删除的对象时会下载失败。查看训练作业的“日志”，出现报错“CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
预训练任务 - AI开发平台ModelArts

TRAIN_ITERS、MBS、GBS、TP、PP、WORK_DIR为非必填，有默认值。等待模型载入执行训练启动命令后，等待模型载入，当出现“training”关键字时，表示开始训练。训练过程中，训练日志会在最后的Rank节点打印。图1 等待模型载入更多查看训练日志和性能操作，请参考查看日志和性能章节。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

预训练预训练数据处理预训练超参配置预训练任务断点续训练查看日志和性能父主题： Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904）
以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

调用查询训练作业详情接口使用刚创建的训练作业返回的id查询训练作业状态。调用查询训练作业指定任务的日志（OBS链接）接口获取训练作业日志的对应的obs路径。调用查询训练作业指定任务的运行指标接口查看训练作业的运行指标详情。当训练作业使用完成或不再需要时，调用删除训练作业接口删除训练作业。前提条件已获

 帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
获取训练作业事件列表 - AI开发平台ModelArts

{training_job_id}/events 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
预训练数据处理 - AI开发平台ModelArts

预训练数据处理训练前需要对数据集进行预处理，转化为.bin和.idx格式文件，以满足训练要求。 Alpaca数据处理说明数据预处理脚本preprocess_data.py存放在代码包的“llm_train/AscendSpeed/ModelLink/tools/”目录中，脚本具体内容如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
获取训练作业支持的公共规格 - AI开发平台ModelArts

获取训练作业支持的公共规格功能介绍获取训练作业支持的公共规格。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-job-flavors

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
模型训练使用流程 - AI开发平台ModelArts

例如：增量训练分布式训练训练加速训练高可靠性查看训练结果和日志查看训练作业详情训练作业运行中或运行结束后，可以在训练作业详情页面查看训练作业的参数设置，训练作业事件等。查看训练作业日志训练日志用于记录训练作业运行过程和异常信息，可以通过查看训练作业日志定位作业运行中出现的问题。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
复制、停止或删除训练作业 - AI开发平台ModelArts

当对创建的训练作业不满意时，您可以单击操作列的复制，重新创建训练作业。在重创训练作业页面，会自动填入上一次训练作业设置的参数，您仅需在原来的基础上进行修改即可重新创建训练作业。停止训练作业在训练作业列表中，针对“创建中”、“等待中”、“运行中”的训练作业，您可以单击“操作”列的“终止”，停止正在运行中的训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业

总条数： 10000

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查询训练作业列表 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练超参配置 - AI开发平台ModelArts

训练作业性能问题 - AI开发平台ModelArts

模型训练 - AI开发平台ModelArts

创建训练作业镜像保存任务 - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

创建训练作业版本 - AI开发平台ModelArts

查询训练作业版本详情 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

训练作业运行失败 - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

获取训练作业事件列表 - AI开发平台ModelArts

预训练数据处理 - AI开发平台ModelArts

获取训练作业支持的公共规格 - AI开发平台ModelArts

模型训练使用流程 - AI开发平台ModelArts

复制、停止或删除训练作业 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线