搜索_华为云

调优前后性能对比 - AI开发平台ModelArts

调优前后性能对比在完成上一章几类调优方式之后，在单卡场景下实测性能调优比对结果如下表所示：设备 batch_size Steps/Sec 1p-GPU Ant8 16 3.17 1p-NPU snt9b 313T 16 2.17 1p-NPU snt9b 313T调优后 16

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优
msprobe精度比对 - AI开发平台ModelArts

精度比对功能主要针对两类场景的问题：同一模型，从CPU或GPU移植到NPU中存在精度下降问题，对比NPU芯片中的API计算数值与CPU或GPU芯片中的API计算数值，进行问题定位。同一模型，进行迭代（模型、框架版本升级或设备硬件升级）时存在的精度下降问题，对比相同模型在迭代前后版本的API计算数值，进行问题定位。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
Lite Cluster使用流程 - AI开发平台ModelArts

供轻量级的虚拟化，以便隔离进程和资源。尽管容器技术已经出现很久，却是随着Docker的出现而变得广为人知。Docker是第一个使容器能在不同机器之间移植的系统。它不仅简化了打包应用的流程，也简化了打包应用的库和依赖，甚至整个操作系统的文件系统能被打包成一个简单的可移植的包，这个包

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
工具介绍及准备工作 - AI开发平台ModelArts

本章节主要介绍针对LLaMAFactory开发的测试工具benchmark，支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置，用户查看默认yaml文件即可知道最优性能的配置。目前仅支持SFT指令监督微调训练阶段。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
工具介绍及准备工作 - AI开发平台ModelArts

本章节主要介绍针对LLaMAFactory开发的测试工具benchmark，支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置，用户查看默认yaml文件即可知道最优性能的配置。目前仅支持SFT指令监督微调训练阶段。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901） > 训练benchmark工具
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

掉卡 NPU卡丢失。节点规格的NPU卡数和k8sNode中可调度卡数不一致。可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。 NT_NPU_OTHER NPU 其他 NPU其他错误。检测到的其他NPU错误，通常为不可自纠正的异常，请联系技术人员支持。发起维修流程。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
工具介绍及准备工作 - AI开发平台ModelArts

本章节主要介绍针对LLaMAFactory开发的测试工具benchmark，支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置，用户查看默认yaml文件即可知道最优性能的配置。目前仅支持SFT指令监督微调训练阶段。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
工具介绍及准备工作 - AI开发平台ModelArts

本章节主要介绍针对LLaMAFactory开发的测试工具benchmark，支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置，用户查看默认yaml文件即可知道最优性能的配置。目前仅支持SFT指令监督微调训练阶段。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
工具介绍及准备工作 - AI开发平台ModelArts

本章节主要介绍针对ModelLink开发的测试工具benchmark，支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置，用户查看默认yaml文件即可知道最优性能的配置。目前仅支持SFT指令监督微调训练阶段。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练评测
迁移效果校验 - AI开发平台ModelArts

在pipeline适配完成后，需要验证适配后的效果是否满足要求，通过对比原始onnx pipeline的最终输出结果确认迁移效果。如果精度和性能都没有问题，则代表迁移完成。对比图片生成效果在CPU上推理onnx，将原始onnx和适配完成的MindSpore Lite pipeline输出的结果图片进行对比，在这里

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买Lite专属池 k8s Cluster资源配置若已完成集群资源购买和开通，则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。首先进入已创建的CCE集群控制版

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买Lite专属池 k8s Cluster资源配置如果已完成集群资源购买和开通，则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。首先进入已创建的CCE集群控制版

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买Lite专属池 k8s Cluster资源配置如果已完成集群资源购买和开通，则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。首先进入已创建的CCE集群控制版

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
部署推理服务 - AI开发平台ModelArts

已准备好Lite k8s Cluster环境，具体参考准备环境。推荐使用“西南-贵阳一”Region上的Cluster和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保集群可以访问公网。 Step1 上传权重文件将权重文件上传到集群节点机器中。权重文件的格式要求为H

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
Standard资源池节点故障定位 - AI开发平台ModelArts

通过nvidia-smi -a查询到存在Pending Page Blacklist为Yes的记录，或多比特Register File大于0。对于Ampere架构的GPU，存在以下场景：存在不可纠正的SRAM错误。存在Remapping Failure记录。 dmsg中存在Xid 95事件。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
推理场景介绍 - AI开发平台ModelArts

910版本，请参考软件配套版本获取配套版本的软件包，请严格遵照版本配套关系使用本文档。资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
推理场景介绍 - AI开发平台ModelArts

909版本，请参考软件配套版本获取配套版本的软件包，请严格遵照版本配套关系使用本文档。资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
推理场景介绍 - AI开发平台ModelArts

911版本，请参考软件配套版本获取配套版本的软件包，请严格遵照版本配套关系使用本文档。资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）

总条数： 2476

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

调优前后性能对比 - AI开发平台ModelArts

msprobe精度比对 - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

迁移效果校验 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线