搜索_华为云

准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。例如OBS支持静态挂载和动态挂载，而SFS Turbo仅支持静态挂载，详细的挂载操作流程可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。例如OBS支持静态挂载和动态挂载，而SFS Turbo仅支持静态挂载，详细的挂载操作流程可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
Yolov8基于DevServer适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

其中input_shape中的-1表示设置动态batch，ge.dynamicDims表示支持的batch值，上面的配置表示输入模型shape支持[1,3,640,640]，[8,3,640,640]，[16,3,640,640]这三种。关于动态batch配置说明详见：https://www

帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
镜像方案说明 - AI开发平台ModelArts

镜像方案说明准备大模型训练适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。基础镜像地址本教程中用到的训练的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可对tokenizer文件进行编辑。 LLama2模型在当前的软件版本中，由于transformers的版本过高（transformers==4

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
显存溢出错误 - AI开发平台ModelArts

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
网卡名称错误 - AI开发平台ModelArts

网卡名称错误当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
ECS中构建新镜像（可选） - AI开发平台ModelArts

ECS中构建新镜像（可选）通过ECS获取和上传基础镜像获取基础镜像后，可通过ECS运行Dockerfile文件，在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像获取模型软件包，并上传到ECS的目录下（可自定义路径），获取地址参考表1。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本（在scripts_modellink下）和配置（在examples/config下），并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
执行训练任务（推荐） - AI开发平台ModelArts

执行训练任务（推荐）新的训练方式将统一管理训练日志、训练结果和训练配置，使用yaml配置文件方便用户根据自己实际需求进行修改。推荐用户使用该方式进行训练。权重文件支持以下组合方式，用户根据自己实际要求选择：训练stage 不加载权重增量训练：加载权重，不加载优化器（默认开启）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
执行训练任务（历史版本） - AI开发平台ModelArts

执行训练任务（历史版本）权重文件支持以下组合方式，用户根据自己实际要求选择：训练stage 不加载权重增量训练：加载权重，不加载优化器断点续训：加载权重+优化器 pt sft CKPT_LOAD_TYPE=0 CKPT_LOAD_TYPE=1 USER_CONVERTED_CKPT_PATH=xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

在某些推理场景中，模型输入的shape可能是不固定的，因此需要支持用户指定模型的动态shape，并能够在推理中接收多种shape的输入。在CPU上进行模型转换时无需考虑动态shape问题，因为CPU算子支持动态shape；而在昇腾场景上，算子需要指定具体的shape信息，并且在模型转换

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
分布式训练功能介绍 - AI开发平台ModelArts

分布式训练功能介绍 ModelArts提供了如下能力：丰富的官方预置镜像，满足用户的需求。支持基于预置镜像自定义制作专属开发环境，并保存使用。丰富的教程，帮助用户快速适配分布式训练，使用分布式训练极大减少训练时间。分布式训练调测的能力，可在PyCharm/VSCode/J

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

求对子用户进行相应的权限配置，限制某些资源的管理，实现权限最小化。模型管理使用从训练或者从OBS中选择创建模型，推荐用户使用动态加载的方式导入，动态加载实现了模型和镜像的解耦，便于进行模型资产的保护。用户需要及时更新模型的相关依赖包，解决开源或者第三方包的漏洞。模型相关的敏感

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明相同点断点续训（Checkpointing）和故障快恢都是指训练中断后可从训练中一定间隔（${save-interval}）保存的模型（包括模型参数、优化器状态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
Lite Cluster资源管理介绍 - AI开发平台ModelArts

由于用户AI开发业务的变化，对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts提供了扩缩容功能，用户可以根据自己的需求动态调整。升级Lite Cluster资源池驱动：当资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
性能调优总体原则和思路 - AI开发平台ModelArts

在PyTorch模型迁移后进行训练的过程中，CPU只负责算子的下发，而NPU负责算子的执行，算子下发和执行异步发生，性能瓶颈在此过程中体现。在PyTorch的动态图机制下，算子被CPU逐个下发到NPU上执行。一方面，理想情况下CPU侧算子下发会明显比NPU侧算子执行更快，此时性能瓶颈主要集中在NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
基于MindSpore Lite的模型转换 - AI开发平台ModelArts

模式），所以需要提前准备以下几个重点参数。输入的inputShape，包含batch信息。 MSLite涉及到编译优化的过程，不支持完全动态的权重模式，需要在转换时确定对应的inputShape，用于模型的格式的编译与转换，可以在netron官网进行查看，或者对于模型结构中的输

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 模型适配
查询支持的镜像列表 - AI开发平台ModelArts

"description" : "AI inference application development, preconfigured ModelBox and AI engine LibTorch, only SSH connection supported.", "dev_services"

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理

总条数： 248

上一页
1
...
6
7
8
...
13
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

Yolov8基于DevServer适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

ECS中构建新镜像（可选） - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

分布式训练功能介绍 - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

性能调优总体原则和思路 - AI开发平台ModelArts

基于MindSpore Lite的模型转换 - AI开发平台ModelArts

查询支持的镜像列表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线