搜索_华为云

动态shape - AI开发平台ModelArts
动态shape - AI开发平台ModelArts

dynamic_dims=[1~4],[8],[16] 在执行convert_lite命令时，指定--configFile=config.ini即可自动编译指定的动态shape。 # shell converter_lite --modelFile=resnet50.onnx --fmk=ONNX

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 模型适配
离线训练安装包准备说明 - AI开发平台ModelArts

训练需要的启动脚本 |——src/ # 启动命令行封装脚本，在install.sh里面自动构建 |──Megatron-LM/ # 适配昇腾的Megatron-LM训练框架

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
LoRA微调训练 - AI开发平台ModelArts

Step2 创建LoRA微调训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。图1 选择镜像训练作业启动命令中输入： cd /home/ma-user/work/llm_train/AscendSpeed;

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）
Lite Cluster高危操作一览表 - AI开发平台ModelArts

Lite Cluster高危操作一览表当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时，可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因，风险操作包括但不限于以下内容。高危操作风险等级说明：高：对于可能直

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
训练性能测试 - AI开发平台ModelArts

rk目录下生成excel表格：性能结果 LLaMAFactory_train_performance_benchmark_<版本号>_<时间戳>.xlsx 表格样例如下：父主题：训练benchmark工具

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

了解。确定自定义镜像大小自定义镜像的大小推荐15GB以内，最大不要超过资源池的容器引擎空间大小的一半。镜像过大会直接影响训练作业的启动时间。 ModelArts公共资源池的容器引擎空间为50G，专属资源池的容器引擎空间的默认为50G，支持在创建专属资源池时自定义容器引擎空间。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
查询训练作业版本详情 - AI开发平台ModelArts

create_time Long 训练作业的创建时间。 parameter Array<Object> 训练作业的运行参数。当为自定义镜像训练作业的时候，此参数为容器环境变量。详细请参见表3。 duration Long 训练作业的运行时间，单位为毫秒。 spec_id Long 训练作业资源规格ID。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
advisor调优总体步骤 - AI开发平台ModelArts

ling数据默认保存到ModelArts训练容器中，则请参考创建ModelArts训练作业中的配置训练参数部分配置好输出参数，训练过程中会自动将训练容器中输出路径下的数据回传至指定的OBS上。创建performance advisor分析环境。采集完profiling后如果M

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
离线训练安装包准备说明 - AI开发平台ModelArts

训练需要的启动脚本 |——src/ # 启动命令行封装脚本，在install.sh里面自动构建 |──Megatron-LM/ # 适配昇腾的Megatron-LM训练框架

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

=2) by (cluster_name, node_ip,type) >=1 图2 告警规则设置告警级别：选择重要告警。告警条件：持续时间选择“1分钟”。设置告警通知（可选）。如果需要将告警通过邮件、手机方式通知您，可在告警通知处，为此告警规则配置“行动规则”。若此处无行动规则，请新建告警行动规则。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
训练性能测试 - AI开发平台ModelArts

任务完成之后会在test-benchmark目录下生成excel表格：性能结果LLaMAFactory_train_performance_benchmark_<版本号>_<时间戳>.xlsx 表格样例如下：父主题：训练benchmark工具

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
InternVL2基于LIte Server适配PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

AscendCloud-6.3.910软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.912 版本。说明：如果上述软件获取路

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
使用Msprobe工具分析偏差 - AI开发平台ModelArts

溯输入来源发现是torch.randint()函数在device侧随机初始化（下图第214行），由于device侧随机性无法通过seed等自动化方式固定，先通过切换CPU侧计算初始化之后再切回device侧。在train.py中做如下图第215行代码修改。重新训练Dump比对分

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
推理精度测试 - AI开发平台ModelArts

tasks：评测数据集任务，比如openllm。 batch_size：输入的batch_size大小，不影响精度，只影响得到结果速度，默认使用auto，代表自动选择batch大小。 output_path：结果保存路径。使用lm-eval，比如加载非量化或者awq量化，llama3.2-1b模型的权重，参考命令：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
创建训练作业版本 - AI开发平台ModelArts

训练作业的名称 status Int 训练作业的运行状态，详细作业状态列表请参见作业状态参考。 create_time Long 训练作业的创建时间，时间戳格式。 version_id Long 训练作业的版本ID。 version_name String 训练作业的版本名称。请求示例

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
推理精度测试 - AI开发平台ModelArts

tasks：评测数据集任务，比如openllm。 batch_size：输入的batch_size大小，不影响精度，只影响得到结果速度，默认使用auto，代表自动选择batch大小。 output_path：结果保存路径。使用lm-eval，比如加载非量化或者awq量化，llama3.2-1b模型的权重，参考命令：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
推理精度测试 - AI开发平台ModelArts

tasks：评测数据集任务，比如openllm。 batch_size：输入的batch_size大小，不影响精度，只影响得到结果速度，默认使用auto，代表自动选择batch大小。 output_path：结果保存路径。使用lm-eval，比如加载非量化或者awq量化，llama3.2-1b模型的权重，参考命令：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Object Storage Service）与SFS Turbo文件系统联动，可以实现灵活数据管理、高性能读取等。约束限制如果要使用自动重启功能，资源规格必须选择八卡规格。适配的CANN版本是cann_8.0.rc3，驱动版本是23.0.6。本案例仅支持在专属资源池上运行，确保专属资源池可以访问公网。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Storage Service）作为存储的方案，OBS用于存储模型文件、训练数据、代码、日志等，提供了高可靠性的数据存储解决方案。约束限制如果要使用自动重启功能，资源规格必须选择八卡规格，只有llama3-8B/70B支持该功能。适配的CANN版本是cann_8.0.rc3，驱动版本是23

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Object Storage Service）与SFS Turbo文件系统联动，可以实现灵活数据管理、高性能读取等。约束限制如果要使用自动重启功能，资源规格必须选择八卡规格。适配的CANN版本是cann_8.0.rc3，驱动版本是23.0.6。本案例仅支持在专属资源池上运行，确保专属资源池可以访问公网。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）

总条数： 1399

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

动态shape - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

查询训练作业版本详情 - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

InternVL2基于LIte Server适配PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

使用Msprobe工具分析偏差 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

创建训练作业版本 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线