搜索_华为云

多模态模型推理性能测试 - AI开发平台ModelArts

benchmark_serving.py # 评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态、动态性能评测脚本 ├── requirements

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理性能测试
多模态模型推理性能测试 - AI开发平台ModelArts

benchmark_serving.py # 评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态、动态性能评测脚本 ├── requirements

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理性能测试
查看诊断报告 - AI开发平台ModelArts

Issues 下图展示了低优先级的动态shape问题，在NPU上动态shape可能导致频繁的算子编译从而影响训练性能，可以按照html中的提示在训练脚本开头加上如下红框中的两行代码（分布式训练请确保分布式训练的每个进程都可以使能这两行代码）。图13 动态shape分析 schedule

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

准备数据本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。数据集下载本教程使用Alpaca数据集，数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

准备权重获取对应模型的权重文件，获取链接参考表1。权重文件下载有如下几种方式，但不仅限于以下方式：方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。方法二：huggingface-cli：huggingface-cli是

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像镜像方案说明 ECS获取和上传基础镜像 ECS中构建新镜像（可选）父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表1。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 ModelArts支持的监控指标为使用户更好地掌握自己的ModelArts在线服务和对应模型负载的运行状态，云服务平台提供了云监控。您可以使用该服务监控您的ModelArts在线服务和对应模型负载，执行自动实时监控、告警和通知操作，帮助您更好地了解服务和模型的各项性能指标。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
版本说明和要求 - AI开发平台ModelArts

可以基于默认的参数跑完静态benchmark和动态benchmark ├── benchmark_parallel.py # 评测静态性能脚本 ├── benchmark_serving.py # 评测动态性能脚本 ├──

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
资源选择推荐 - AI开发平台ModelArts

04，建议不小于2U8G，本地存储空间100G，带EIP全动态BGP，按流量10M带宽） × 多机多卡按需购买。（普通OBS桶）包月购买。（HPC型500G）免费。免费。包月购买。免费。包月购买。（建议不小于2U8G，本地存储空间100G，带EIP全动态BGP，按流量10M带宽） × 表2

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
Ascend-vLLM介绍 - AI开发平台ModelArts

特性名称特性说明调度 Page-attention 分块管理kvcache，提升吞吐。 Continuous batching 迭代级调度，动态调整batch，降低延迟，提升吞吐。 Multi-step 一次调度多次推理，降低调度上的cpu-overhead。量化 W4A16-AWQ、GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
管理Lite Cluster资源池 - AI开发平台ModelArts

启用缓存清理功能。大页内存：开启表示配置使用透明大页功能。大页内存是一种内存管理机制，可以通过增大内存页的大小来提高系统性能。透明大页是动态分配大页内存的机制，可以简化大页内存的管理。开启大页内存也是一种应用调优手段，在大部分场景下可以提升应用性能，但是开启后也会引起soft

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
准备Notebook（可选） - AI开发平台ModelArts

准备Notebook（可选）本步骤为可选操作。ModelArts Notebook云上云下，无缝协同，更多关于ModelArts Notebook的详细资料请查看开发环境介绍。本案例中，如果用户有自定义开发的需要，比如查看和编辑代码、数据预处理、权重转换等操作，可通过Note

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
下线公告 - AI开发平台ModelArts
下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务模型转换下线公告【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox镜像下线公告【下线公告】华为云ModelArts算法套件下线公告【下线公告】华为云ModelArts服务旧版训练管理下线公告

 帮助中心 > AI开发平台ModelArts > 服务公告
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

04，建议不小于2U8G，本地存储空间100G，带EIP全动态BGP，按流量10M带宽） × 多机多卡按需购买（普通OBS桶）包月购买（HPC型500G）免费免费包月购买免费包月购买（Ubuntu 18.04，建议不小于2U8G，本地存储空间100G，带EIP全动态BGP，按流量10M带宽）

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
启动/停止/删除实例 - AI开发平台ModelArts

”。只有处于“运行中”状态的Notebook可以执行停止操作。 Notebook停止后： “/home/ma-user/work”目录以及动态挂载在“/data”下的目录下的数据会保存，其余目录下内容会被清理。例如：用户在开发环境中的其他目录下安装的外部依赖包等，在Noteboo

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
显存溢出错误 - AI开发平台ModelArts

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法

总条数： 248

上一页
1
...
5
6
7
...
13
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

版本说明和要求 - AI开发平台ModelArts

资源选择推荐 - AI开发平台ModelArts

Ascend-vLLM介绍 - AI开发平台ModelArts

管理Lite Cluster资源池 - AI开发平台ModelArts

准备Notebook（可选） - AI开发平台ModelArts

下线公告 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

启动/停止/删除实例 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线