搜索_华为云

训练作业中如何判断文件夹是否复制完毕？ - AI开发平台ModelArts

训练作业中如何判断文件夹是否复制完毕？您可以在训练作业启动文件的脚本中，通过如下方式获取复制和被复制文件夹大小，根据结果判断是否复制完毕： import moxing as mox mox.file.get_size('obs://bucket_name/obs_file',recursive=True)

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
断点续训练 - AI开发平台ModelArts

断点续训练断点续训练是指因为某些原因导致训练作业还未完成就被中断，下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
Standard模型训练 - AI开发平台ModelArts

Standard模型训练使用ModelArts Standard自定义算法实现手写数字识别基于ModelArts Standard专属资源池训练模型

 帮助中心 > AI开发平台ModelArts > 最佳实践
模型训练 - 可信智能计算服务 TICS

模型训练企业A在完成特征选择后，可以单击右下角的“启动训练”按钮，配置训练的超参数并开始训练。等待训练完成后就可以看到训练出的模型指标。模型训练完成后如果指标不理想可以重复调整7、8两步的所选特征和超参数，直至训练出满意的模型。父主题：使用TICS可信联邦学习进行联邦建模

 帮助中心 > 可信智能计算服务 TICS > 开发指南 > 使用场景 > 纵向联邦建模场景 > 使用TICS可信联邦学习进行联邦建模
查看训练作业资源占用情况 - AI开发平台ModelArts

查看训练作业资源占用情况如何查看训练作业资源使用详情在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单击“资源占用情况”页签查看计算节点的资源使用情况，最多可显示最近三天的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
外网访问限制 - AI开发平台ModelArts

外网访问限制日志提示“ Network is unreachable” 运行训练作业时提示URL连接超时父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
训练作业进程异常退出 - AI开发平台ModelArts

训练作业进程异常退出问题现象训练作业运行失败，日志中出现如下类似报错： [Modelarts Service Log]Training end with return code: 137 原因分析日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程，所以这里

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
查询训练作业参数详情 - AI开发平台ModelArts

String 训练作业参数的名称。 config_desc String 训练作业参数的描述信息。 worker_server_num Integer 训练作业worker的个数。 app_url String 训练作业的代码目录。 boot_file_url String 训练作业的代码启动文件。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现口罩检测该案例是使用华为云一站式AI开发平台ModelArts的新版“自动学习”功能，基于华为云AI开发者社区AI Gallery中的数据集资产，让零AI基础的开发者完成“物体检测”的AI模型的训练和部署。依据开发者提供的标注数据及选

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
获取训练作业日志的文件名 - AI开发平台ModelArts

获取训练作业日志的文件名功能介绍获取训练作业日志的文件名。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/log/file-names 参数说明如表1所示。表1 参数说明参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
查询训练作业指定任务的日志（预览） - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。 project_id 是 String

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
预训练任务 - AI开发平台ModelArts

等待模型载入执行训练启动命令后，等待模型载入，当出现“training”关键字时，表示开始训练。训练过程中，训练日志会在最后的Rank节点打印。图1 等待模型载入更多查看训练日志和性能操作，请参考查看日志和性能章节。如果需要使用断点续训练能力，请参考断点续训练章节修改训练脚本。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
查询训练作业指定任务的日志（OBS链接） - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。请求参数表2 请求Header参数

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
训练作业卡死检测 - AI开发平台ModelArts

训练作业卡死检测什么是训练作业卡死检测训练作业在运行中可能会因为某些未知原因导致作业卡死，如果不能及时发现，就会导致无法及时释放资源，从而造成极大的资源浪费。为了节省训练资源成本，提高使用体验，ModelArts提供了卡死检测功能，能自动识别作业是否卡死，并在日志详情界面上展

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
训练迁移快速入门案例 - AI开发平台ModelArts

训练迁移快速入门案例本篇指导是迁移的总体思路介绍，便于用户对迁移过程有一个整体的认识。如果您希望通过具体案例直接实操，可参考《主流开源大模型基于DevServer适配PyTorch NPU训练指导》，该案例以ChatGLM-6B为例，介绍如何将模型迁移至昇腾设备上训练、模型精度对齐以及性能调优。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
附录：指令微调训练常见问题 - AI开发平台ModelArts

附录：指令微调训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考各个模型深度学习训练加速框

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

将此压缩后的文件上传至OBS。训练时，可直接从OBS下载此压缩文件至/cache目录。此操作仅需执行一次，无需训练过程反复与OBS交互导致训练效率低。如下示例，可使用mox.file.copy_parallel将zip文件下载至本地/cache目录并解压，然后再读取做训练。 1 2 3 4 5

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
管理模型训练作业 - AI开发平台ModelArts

管理模型训练作业查看训练作业详情查看训练作业资源占用情况查看模型评估结果查看训练作业事件查看训练作业日志修改训练作业优先级使用Cloud Shell调试生产训练作业重建、停止或删除训练作业管理训练容器环境变量查看训练作业标签父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

在ModelArts创建分布式训练时如何设置NCCL环境变量？ ModelArts训练平台预置了部分NCCL环境变量，如表1所示。这些环境变量建议保持默认值。表1 预置的环境变量环境变量说明 NCCL_SOCKET_IFNAME 指定通信的网卡名称。 NCCL_IB_GID_INDEX

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
训练作业参数配置 - AI开发平台ModelArts

训练作业参数配置创建训练作业参数查询训练作业参数列表更新训练作业参数删除训练作业参数查询训练作业参数详情父主题：训练管理（旧版）

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版）

总条数： 10000

上一页
1
...
8
9
10
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业中如何判断文件夹是否复制完毕？ - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

模型训练 - 可信智能计算服务 TICS

查看训练作业资源占用情况 - AI开发平台ModelArts

外网访问限制 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

查询训练作业参数详情 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

获取训练作业日志的文件名 - AI开发平台ModelArts

查询训练作业指定任务的日志（预览） - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

查询训练作业指定任务的日志（OBS链接） - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

管理模型训练作业 - AI开发平台ModelArts

在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

训练作业参数配置 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线