搜索_华为云

训练作业失败，返回错误码139 - AI开发平台ModelArts

训练作业失败，返回错误码139 问题现象训练作业运行失败，返回错误码139，如下图所示： [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。问题现象训练过程中复制数据/代码/模型时出现如下报错：图1 错误日志原因分析出现该问题的可能原因如下：本地数据、文件保存将"/cache"目录空间用完。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？在训练作业的过程中，会使用到第三方库。以C++为例，请参考如下操作步骤进行安装：将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。将上传到OBS的源码使用Moxing复制到开发环境Notebook中。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

预训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中，具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置以llama2-13b预训练为例，执行脚本0_pl_pretrain_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
创建训练任务 - AI开发平台ModelArts

创建训练任务登录ModelArts管理控制台，检查当前账号是否已完成访问授权的配置。如果未完成，请参考使用委托授权针对之前使用访问密钥授权的用户，建议清空授权，然后使用委托进行授权。在左侧导航栏中选择“模型训练 > 训练作业”，默认进入“训练作业”列表。单击“创建训练作业”进入创建训练作业页面。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
开发用于预置框架训练的代码 - AI开发平台ModelArts

分训练好的参数？解析输入路径参数、输出路径参数运行在ModelArts Standard的训练作业会读取存储在OBS服务的数据，或者输出训练结果至OBS服务指定路径，输入和输出数据需要配置2个地方：训练代码中需解析输入路径参数和输出路径参数。ModelArts Standard推荐以下方式实现参数解析。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
解析Manifest文件 - AI开发平台ModelArts

测试、推理，如果没有给出该字段，则使用者自行决定如何使用该对象。 inference_loc String 当此Manifest文件由推理服务生成时会有该字段，表示推理输出的结果文件位置。 id String 样本ID。 source_type String source的类型，比如csv。

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > Manifest管理
Bert基于Lite Server适配MindSpore Lite推理指导(6.3.910) - AI开发平台ModelArts

过SSH登录，不同机器之间网络互通。购买Lite Server资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
特权池信息数据显示均为0%如何解决？ - AI开发平台ModelArts

特权池信息数据显示均为0%如何解决？问题现象特权池基本信息页面数据均显示为0%（如CPU使用率、内存使用率、加速卡使用率、加速卡显存使用率）。原因分析原因是集群没有安装ICAgent。新建特权池时默认会安装ICAgent，可能由于用户自行卸载ICAgent，导致资源池数据显示异常。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配 - AI开发平台ModelArts

使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配问题现象用户使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配。原因分析实例连接错误，可能是配置文件写的不规范导致连接到别的实例。解决方案检查用户.ssh配置文件（路

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
在ModelArts中如何查看OBS目录下的所有文件？ - AI开发平台ModelArts

在ModelArts中如何查看OBS目录下的所有文件？在使用Notebook或训练作业时，需要查看目录下的所有文件，您可以通过如下方式实现：通过OBS管理控制台进行查看。使用当前账户登录OBS管理控制台，去查找对应的OBS桶、文件夹、文件。通过接口判断路径是否存在。在已有

 帮助中心 > AI开发平台ModelArts > 常见问题 > 存储相关
管理团队和团队成员 - AI开发平台ModelArts

管理团队和团队成员修改成员信息团队中的成员，当其信息发生变化时，可以编辑其基本情况。在“团队详情”区域，选择需修改的成员。在成员所在行的“操作”列，单击“修改”。在弹出的对话框中，修改其“描述”或“角色”。成员的“邮箱”无法修改，如果需要修改邮箱地址，建议先删除此成员，然后再基于新的邮箱地址添加新成员。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据
LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中，具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置以llama2-13b LORA微调为例，执行脚本0_pl_lora_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）
SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中，具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置以llama2-13b SFT微调为例，执行脚本 0_pl_sft_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中，具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置以llama2-13b LORA微调为例，执行脚本0_pl_lora_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍场景介绍本文介绍如何将客户已有的PyTorch训练业务迁移到昇腾设备上运行并获得较好的模型训练效果。华为云ModelArts针对该场景提供了系统化的迁移指导，包括迁移原理、迁移流程以及迁移后的精度调试及性能调优方法介绍。此外，ModelArts提

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
精度调优前准备工作 - AI开发平台ModelArts

精度调优前准备工作在定位精度问题之前，首先需要排除训练脚本及参数配置等差异的干扰。目前大部分精度无法对齐的问题都是由于模型超参数、Python三方库版本、模型源码等与标杆环境（GPU/CPU）设置的不一致导致，为了在定位过程中少走弯路，需要在定位前先对训练环境及代码做有效排查。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 修改训练超参配置以llama2-13b SFT微调为例，执行脚本 0_pl_sft_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 修改训练超参配置以llama2-13b SFT微调为例，执行脚本 0_pl_sft_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
离线训练安装包准备说明 - AI开发平台ModelArts

离线训练安装包准备说明在华为公有云平台，申请的资源一般要求连通网络。因此用户在准备环境时可以运行 scripts/install.sh 直接下载安装资源，或通过 Dockerfile 下载安装资源并构建一个新的镜像。若用户的机器或资源池无法连通网络，并无法git clone下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考

总条数： 2399

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业失败，返回错误码139 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

开发用于预置框架训练的代码 - AI开发平台ModelArts

解析Manifest文件 - AI开发平台ModelArts

Bert基于Lite Server适配MindSpore Lite推理指导(6.3.910) - AI开发平台ModelArts

特权池信息数据显示均为0%如何解决？ - AI开发平台ModelArts

使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配 - AI开发平台ModelArts

在ModelArts中如何查看OBS目录下的所有文件？ - AI开发平台ModelArts

管理团队和团队成员 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线