搜索_华为云

OOM导致训练作业失败 - AI开发平台ModelArts

原因分析按照之前支撑的经验，出现该问题的可能原因如下：绝大部分都是确实是显存不够用。还有较少数原因是节点故障，跑到特定节点必现OOM，其他节点正常。处理方法如果是正常的OOM，就需要修改一些超参，释放一些不需要的tensor。修改网络参数，比如batch_size、hi

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
ModelArts SDK、OBS SDK和MoXing的区别？ - AI开发平台ModelArts

indSpore等)下均可以使用。 MoXing Framework模块提供了OBS中常见的数据文件操作，如读写、列举、创建文件夹、查询、移动、复制、删除等。在ModelArts Notebook中使用MoXing接口时，可直接调用接口，无需下载或安装SDK，使用限制比ModelArts

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
SFT全参微调训练任务 - AI开发平台ModelArts

执行脚本为0_pl_sft_70b.sh 和 0_pl_sft_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。表1 必须修改的训练超参配置参数示例值参数说明 ORIGINAL_TRAIN_DATA_PATH

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）
示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

准备镜像主机 Step4 制作自定义镜像 Step5 上传镜像至SWR服务 Step6 在ModelArts上创建训练作业前提条件已注册华为账号并开通华为云，且在使用ModelArts前检查账号状态，账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹在OBS服务中创建桶和

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

准备镜像主机 Step4 制作自定义镜像 Step5 上传镜像至SWR服务 Step6 在ModelArts上创建训练作业前提条件已注册华为账号并开通华为云，且在使用ModelArts前检查账号状态，账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹在OBS服务中创建桶和

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
查询网络资源 - AI开发平台ModelArts

0.0/12~24 192.168.0.0/16~24。 connection NetworkConnection object 当前网络与其他云服务的连通信息。表7 NetworkConnection 参数参数类型描述 peerConnectionList Array of

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询网络资源列表 - AI开发平台ModelArts

0.0/12~24 192.168.0.0/16~24。 connection NetworkConnection object 当前网络与其他云服务的连通信息。表10 NetworkConnection 参数参数类型描述 peerConnectionList Array of

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

#启动文件 |---otherfileDirectory #其他依赖文件所在的目录 |---otherfile.py #其他依赖文件在启动文件中，建议用户参考以下方式获取依赖文件所在路径，即示例中的otherfile_path。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
执行训练任务 - AI开发平台ModelArts

必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数，这可以增加批次大小而不增加内存消耗

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
执行训练任务 - AI开发平台ModelArts

必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数，这可以增加批次大小而不增加内存消耗

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
自动学习项目中，如何进行增量训练？ - AI开发平台ModelArts

也需要检查是否需要增加新的标签。在图片都标注完成后，单击右上角“开始训练”，在“训练设置”中，在“增量训练版本”中选择之前已完成的训练版本，在此版本基础上进行增量训练。其他参数请根据界面提示填写。设置完成后，单击“确定”，即进行增量训练。系统将自动跳转至“模型训练”页面，待训练完成后，您可以在此页面中查看训

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
使用llm-compressor工具量化 - AI开发平台ModelArts

512 执行权重量化： python deepseek_moe_w8a8_int8.py 1、执行权重量化过程中，请保证使用的GPU卡上没有其他进程，否则可能出现OOM； 2、若量化Deepseek-v2-236b模型，大致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
SDXL基于Standard适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

e-tuning）以优化模型性能的过程。本文档主要介绍如何在ModelArts Standard上，利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，完成SDXL Finetune训练。获取软件和镜像表1 获取软件和镜像分类名称获取路径插件代码包

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
欠拟合的解决方法有哪些？ - AI开发平台ModelArts

调整参数和超参数。神经网络中：学习率、学习衰减率、隐藏层数、隐藏层的单元数、Adam优化算法中的β1和β2参数、batch_size数值等。其他算法中：随机森林的树数量，k-means中的cluster数，正则化参数λ等。增加训练数据作用不大。欠拟合一般是因为模型的学习能力不足，一味地增加数据，训练效果并不明显。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
使用llm-compressor工具量化 - AI开发平台ModelArts

512 执行权重量化： python deepseek_moe_w8a8_int8.py 1、执行权重量化过程中，请保证使用的GPU卡上没有其他进程，否则可能出现OOM； 2、若量化Deepseek-v2-236b模型，大致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
返回结果 - AI开发平台ModelArts
返回结果 - AI开发平台ModelArts

对于获取用户Token接口，返回如图1所示的消息头。其中“x-subject-token”就是需要获取的用户Token。有了Token之后，您就可以使用Token认证调用其他API。图1 获取用户Token响应消息头响应消息体响应消息体通常以结构化格式返回，与响应消息头中Content-type对应，传递除响应消息头之外的内容。

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
什么是ModelArts - AI开发平台ModelArts

数据到AI应用的全流程开发过程。包含数据处理、模型训练、AI应用管理、AI应用部署等操作，并且提供AI Gallery功能，能够在市场内与其他开发者分享模型。 ModelArts支持图像分类、物体检测、视频分析、语音识别、产品推荐、异常检测等多种AI应用场景。图1 ModelArts架构

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
预训练任务 - AI开发平台ModelArts

0_pl_pretrain_70b.sh 和 0_pl_pretrain_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。表1 必须修改的训练超参配置参数示例值参数说明 ORIGINAL_TRAIN_DATA_PATH

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）
开发第一条Workflow - AI开发平台ModelArts

Gallery>资产集市>算法，搜索自动学习算法-图像分类。单击算法右侧的“订阅”。在弹出的窗口中，勾选“我已阅读并同意《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》”后，单击“继续订阅”。订阅完成后，单击“前往控制台”，选择云服务区域为“华北-北京四”，单击“确定”后

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
eagle投机小模型训练 - AI开发平台ModelArts

config文件。步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。然后在llm_tools/spec_decode/EAGLE文件夹，执行

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）

总条数： 1085

上一页
1
...
43
44
45
...
55
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

OOM导致训练作业失败 - AI开发平台ModelArts

ModelArts SDK、OBS SDK和MoXing的区别？ - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

查询网络资源 - AI开发平台ModelArts

查询网络资源列表 - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

自动学习项目中，如何进行增量训练？ - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

SDXL基于Standard适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

欠拟合的解决方法有哪些？ - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

返回结果 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

开发第一条Workflow - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线