搜索_华为云

ModelArts训练好后的模型如何获取？ - AI开发平台ModelArts

ModelArts训练好后的模型如何获取？使用自动学习产生的模型只能在ModelArts上部署上线，无法下载至本地使用。使用自定义算法或者订阅算法训练生成的模型，会存储至用户指定的OBS路径中，供用户下载。父主题：功能咨询

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询

训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

训练作业失败，如何使用开发环境调试训练代码？在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VsCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

训练代码中，如何获取依赖文件所在的路径？ - AI开发平台ModelArts

训练代码中，如何获取依赖文件所在的路径？由于用户本地开发的代码需要上传至ModelArts后台，训练代码中涉及到依赖文件的路径时，用户设置有误的场景较多。因此推荐通用的解决方案：使用os接口得到依赖文件的绝对路径，避免报错。以下示例展示如何通过os接口获得其他文件夹下的依赖文件路径。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码

重建、停止或删除训练作业 - AI开发平台ModelArts

当对创建的训练作业不满意时，您可以单击操作列的重建，重新创建训练作业。在重创训练作业页面，会自动填入上一次训练作业设置的参数，您仅需在原来的基础上进行修改即可重新创建训练作业。停止训练作业在训练作业列表中，针对“创建中”、“等待中”、“运行中”的训练作业，您可以单击“操作”列的“终止”，停止正在运行中的训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业

查询训练作业列表 - AI开发平台ModelArts

JobResponse 参数参数类型描述 kind String 训练作业类型。默认使用job。枚举值： job 训练作业。 metadata JobMetadata object 训练作业元信息。 status Status object 训练作业状态信息。创建作业无需填写。 algorithm

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

分页查询智能任务列表 - AI开发平台ModelArts

任务的列表。 “智能标注”是指基于当前标注阶段的标签及图片学习训练，选中系统中已有的模型进行智能标注，快速完成剩余图片的标注操作。“智能标注”又包含“主动学习”和“预标注”两类。 “主动学习”表示系统将自动使用半监督学习、难例筛选等多种手段进行智能标注，降低人工标注量，帮助用户找到难例。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）

创建训练作业参数 - AI开发平台ModelArts

是 String 训练作业参数名称。限制为1-64位只含数字、字母、下划线或者中划线的名称。 config_desc 否 String 对训练作业的描述，默认为空，字符串的长度限制为[0，256]。 worker_server_num 是 Integer 训练作业worker的个

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置

训练作业中如何判断文件夹是否复制完毕？ - AI开发平台ModelArts

训练作业中如何判断文件夹是否复制完毕？您可以在训练作业启动文件的脚本中，通过如下方式获取复制和被复制文件夹大小，根据结果判断是否复制完毕： import moxing as mox mox.file.get_size('obs://bucket_name/obs_file',recursive=True)

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码

管理训练作业版本 - AI开发平台ModelArts

管理训练作业版本训练作业是否支持定时或周期调用？父主题： Standard训练作业

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前，针对ChatGLMv3-6B模型中的

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明

设置断点续训练 - AI开发平台ModelArts

ckpt的代码，使能读取前一次训练保存的预训练模型。 ModelArts Standard中如何实现断点续训练在ModelArts Standard训练中实现断点续训练或增量训练，建议使用“训练输出”功能。在创建训练作业时，设置训练“输出”参数为“train_url”，在指定的训练输出的数据存

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性

Standard模型训练 - AI开发平台ModelArts

Standard模型训练使用ModelArts Standard自定义算法实现手写数字识别基于ModelArts Standard运行GPU训练任务

帮助中心 > AI开发平台ModelArts > 最佳实践

训练日志失败分析 - AI开发平台ModelArts

训练日志失败分析在ModelArts Standard中训练作业遇到问题时，可首先查看日志，多数场景下的问题可以通过日志报错信息直接定位。 ModelArts Standard提供了训练作业失败定位与分析功能，如果训练作业运行失败，ModelArts会自动识别导致作业失败的原因

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性

指令监督微调训练任务 - AI开发平台ModelArts

Step3 启动训练脚本启动训练前需修改启动训练脚本demo.sh 内容。具体请参考•修改启动脚本。对于falcon-11B训练任务开始前，需手动替换tokenizer中的config.json，具体请参见falcon-11B模型。修改完yaml配置文件后，启动训练脚本；模型不

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）

训练启动脚本说明和参数配置 - AI开发平台ModelArts

GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 8 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明

旧版训练迁移至新版训练需要注意哪些问题？ - AI开发平台ModelArts

旧版训练迁移至新版训练需要注意哪些问题？新版训练和旧版训练的差异主要体现在以下3点: 新旧版创建训练作业方式差异新旧版训练代码适配的差异新旧版训练预置引擎差异新旧版创建训练作业方式差异旧版训练支持使用“算法管理”（包含已保存的算法和订阅的算法）、“常用框架”、“自定义”（即自定义镜像）方式创建训练作业。