搜索_华为云

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

致，否则无法选择到镜像。单击右上角“创建组织”，输入组织名称完成组织创建。请自定义组织名称，本示例使用“deep-learning”，下面的命令中涉及到组织名称“deep-learning”也请替换为自定义的值。单击右上角“登录指令”，获取登录访问指令，本文选择复制临时登录指令。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
业务代码问题 - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” MXNet创建kvstore时程序被阻塞，无报错日志出现ECC错误，导致训练作业失败超过最大递归深度导致训练作业失败使用预置算法训练时，训练失败，报“bndbox”错误训练作业进程异常退出训练作业进程被kill 父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
BF16和FP16说明 - AI开发平台ModelArts

时有优势，能够避免在训练过程中数值的上溢或下溢，从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

时有优势，能够避免在训练过程中数值的上溢或下溢，从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

时有优势，能够避免在训练过程中数值的上溢或下溢，从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
Standard自动学习 - AI开发平台ModelArts

ModelArts自动学习，为资深级用户提供模板化开发能力提供“自动学习白盒化”能力，开放模型参数、自动生成模型，实现模板化开发，提高开发效率采用自动深度学习技术，通过迁移学习（只通过少量数据生成高质量的模型），多维度下的模型架构自动设计（神经网络搜索和自适应模型调优），和更快、更准的训练参数自动调优自动训练

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
ModelArts SDK、OBS SDK和MoXing的区别？ - AI开发平台ModelArts

MoXing是ModelArts自研的组件，是一种轻型的分布式框架，构建于TensorFlow、PyTorch、MXNet、MindSpore等深度学习引擎之上，使得这些计算引擎分布式性能更高，同时易用性更好。MoXing包含很多组件，其中MoXing Framework模块是一个基础

 帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
场景介绍及环境准备 - AI开发平台ModelArts

调试场景。环境开通指导请参考Notebook环境创建。 ModelArts Lite DevServer 该环境为裸机开发环境，主要面向深度定制化开发场景。环境开通指导请参考DevServer资源开通；环境配置指导请参考Snt9B裸金属服务器环境配置指南。本文基于ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型Pytorch迁移与精度性能调优
AI Gallery功能介绍 - AI开发平台ModelArts

Gallery为零基础开发者，提供无代码开发工具，快速推理、部署AI应用；为具备基础代码能力的开发者，AI Gallery将复杂的模型、数据及算法策略深度融合，构建了一个高效协同的模型体验环境，让开发者仅需几行代码即可调用任何模型，大幅度降低了模型开发门槛。充足澎湃算力，最佳实践算力推荐方案，提升实践效率和成本

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
ModelArts中常用概念 - AI开发平台ModelArts

MoXing是ModelArts自研的组件，是一种轻型的分布式框架，构建于TensorFlow、PyTorch、MXNet、MindSpore等深度学习引擎之上，使得这些计算引擎分布式性能更高，同时易用性更好。MoXing包含很多组件，其中MoXing Framework模块是一个基础

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
查看模型评估结果 - AI开发平台ModelArts

mox import tensorflow as tf from deep_moxing.framework.manifest_api.manifest_api import get_sample_list from deep_moxing.model_analysis.api import

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
从0制作自定义镜像用于创建训练作业（MindSpore+Ascend） - AI开发平台ModelArts

致，否则无法选择到镜像。单击右上角“创建组织”，输入组织名称完成组织创建。请自定义组织名称，本示例使用“deep-learning”，下面的命令中涉及到组织名称“deep-learning”也请替换为自定义的值。单击右上角“登录指令”，获取登录访问指令，本文选择复制临时登录指令。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
如何在代码中打印GPU使用信息 - AI开发平台ModelArts

memoryUsed, gpu.memoryUtil*100, gpu.memoryTotal)) 注：用户在使用pytorch/tensorflow等深度学习框架时也可以使用框架自带的api进行查询。父主题：更多功能咨询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
附录：微调训练常见问题 - AI开发平台ModelArts

expandable_segments:True 将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-Z

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
迁移过程使用工具概览 - AI开发平台ModelArts

运行内置的知识库进行自动优化，以提升模型的运行效率。自动高性能算子生成工具AKG AKG（Auto Kernel Generator）对深度神经网络中的算子进行优化，并提供特定模式下的算子自动融合功能。提升在昇腾硬件后端上运行网络的性能。 AKG由三个基本的优化模块组成：规范化、自动调度和后端优化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
指令监督微调训练任务 - AI开发平台ModelArts

【可选】自定义数据集dataset_info.json配置文件绝对路径；如使用自定义数据集，yaml配置文件需添加此参数。是否选择加速深度学习训练框架Deepspeed，可参考表1选择不同的框架是，选用ZeRO (Zero Redundancy Optimizer)优化器 ZeRO-0，配置以下参数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
解析Pascal VOC文件 - AI开发平台ModelArts

Object 数据源信息，详细请见表3。 width Long 图片长度。 height Long 图片高度。 depth Long 图片深度。 segmented String 分割。 mask_source String 图像分割得到的mask文件的云存储路径，目前只支持PNG格式。

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > Manifest管理
环境准备 - AI开发平台ModelArts
环境准备 - AI开发平台ModelArts

昇腾规格规格名称描述 Ascend 1*ascend-snt9b|ARM 24核 192GB Snt9b单卡规格，配搭ARM处理器，适合深度学习场景下的模型训练和调测 ModelArts提供了面向推理迁移工作的预置镜像，其中包含了最新商用版驱动、昇腾软件开发库，迁移工具链等。预

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
执行微调训练任务 - AI开发平台ModelArts

ata 【可选】dataset_info.json配置文件所属的绝对路径；如使用自定义数据集，yaml配置文件需添加此参数。是否选择加速深度学习训练框架Deepspeed，可参考表1选择不同的框架。是，选用ZeRO (Zero Redundancy Optimizer)优化器。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
ModelArts中提示OBS相关错误 - AI开发平台ModelArts

确保此OBS桶的加密功能关闭。如果此OBS桶为加密桶，可单击“默认加密”选项进行修改。创建OBS桶时，桶的存储类别请勿选择“归档存储”和“深度归档存储”，归档存储的OBS桶会导致模型训练失败。图1 查看OBS桶是否加密检查OBS文件是否为加密文件进入OBS管理控制台，单击桶名称进入概览页。

帮助中心 > AI开发平台ModelArts > 故障排除 > 通用问题

总条数： 104

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

业务代码问题 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

Standard自动学习 - AI开发平台ModelArts

ModelArts SDK、OBS SDK和MoXing的区别？ - AI开发平台ModelArts

场景介绍及环境准备 - AI开发平台ModelArts

AI Gallery功能介绍 - AI开发平台ModelArts

ModelArts中常用概念 - AI开发平台ModelArts

查看模型评估结果 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MindSpore+Ascend） - AI开发平台ModelArts

如何在代码中打印GPU使用信息 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

指令监督微调训练任务 - AI开发平台ModelArts

解析Pascal VOC文件 - AI开发平台ModelArts

环境准备 - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

ModelArts中提示OBS相关错误 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线