搜索_华为云

性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

性能调优性能测试 benchmark工具也可用于性能测试，其主要的测试指标为模型单次前向推理的耗时。在性能测试任务中，与精度测试不同，并不需要用户指定对应的输入（inDataFile）和输出的标杆数据（benchmarkDataFile），benchmark工具会随机生成一个输

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU卡显存为32GB时，至少需要2张卡运行

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU卡显存为32GB时，至少需要2张卡运行

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
管理AI Gallery数据集 - AI开发平台ModelArts

Gallery仓库的存储空间。在资产详情页，选择“设置”页签。在“删除资产”处，单击“删除”按钮，确认后资产将被删除。删除操作不可撤销，执行此操作后该资产及相关文件将被永久删除，请谨慎操作。父主题：发布和管理AI Gallery数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery数据集
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU卡显存为32GB时，至少需要2张卡运行

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

或pool_name参数，且该参数优先级高于服务层级的cluster_id及pool_name，当config内的cluster_id与pool_name均未配置时，会使用服务层级的cluster_id及pool_name参数，均不配置时则会使用共享资源池；对于edge服务类型，

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
各模型支持的最小卡数和最大序列 - AI开发平台ModelArts

len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU卡显存为32GB时，至少需要2张卡运行

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 附录
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

安装和配置OBS命令行工具（可选）工作空间配置模型训练：本地构建镜像及调试上传镜像上传数据和算法至SFS（首次使用时需要）使用Notebook进行代码调试创建单机多卡训练作业本地构建镜像及调试本节通过打包conda env来构建环境，也可以通过pip install、conda

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
模型配置文件编写说明 - AI开发平台ModelArts

描述 package_name 是 String 依赖包名称。不能含有中文及特殊字符&!'"<>=。 package_version 否 String 依赖包版本，如果不强依赖于版本号，则该项不填。不能含有中文及特殊字符&!'"<>=。 restraint 否 String 版本限制

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
推理场景介绍 - AI开发平台ModelArts

推理场景介绍方案概览本方案介绍了在ModelArts的Lite Server上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
更新服务配置 - AI开发平台ModelArts

或pool_name参数，且该参数优先级高于服务层级的cluster_id及pool_name，当config内的cluster_id与pool_name均未配置时，会使用服务层级的cluster_id及pool_name参数，均不配置时则会使用共享资源池；对于edge服务类型，

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
推理场景介绍 - AI开发平台ModelArts

推理场景介绍方案概览本方案介绍了在ModelArts的Lite Server上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
使用ModelArts Studio的DeepSeek-R1模型框架实现对话问答 - AI开发平台ModelArts

型对应的“操作”列的“更多 > 删除”，在弹窗中输入“DELETE”，单击“确定”，删除模型。进入OBS控制台，删除本示例使用的OBS桶及文件夹。

帮助中心 > AI开发平台ModelArts > 快速入门
自定义镜像使用场景 - AI开发平台ModelArts

制作自定义镜像用于创建Notebook 当Notebook预置镜像不能满足需求时，用户可以制作自定义镜像。在镜像中自行安装与配置环境依赖软件及信息，并制作为自定义镜像，用于创建新的Notebook实例。同时也支持用户在Notebook中，基于已有镜像制作新的自定义镜像。制作自定义镜像用于训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

置，请参见创建ModelArts Standard自定义策略。前提条件给用户组授权之前，请您了解用户组可以添加的使用ModelArts及依赖服务的权限，并结合实际需求进行选择，ModelArts支持的系统权限，请参见表1。表1 服务授权列表待授权的服务授权说明 IAM权限设置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权
在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类仅“华东二”和“西南-贵阳一”区域支持使用ModelArts Studio大模型即服务平台（MaaS）。应用场景在数字化时代，新闻的生成与传播速度不断刷新记录。在ModelArts Studio大模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

SDK，则需要在本地环境中安装ModelArts SDK，安装后可直接调用ModelArts SDK轻松管理数据集、创建ModelArts训练作业及创建AI应用，并将其部署为在线服务。 ModelArts SDK使用限制本地ModelArts SDK不支持进行训练作业调测、模型调试和在

 帮助中心 > AI开发平台ModelArts > SDK参考
推理场景介绍 - AI开发平台ModelArts

推理场景介绍方案概览本方案介绍了在ModelArts的Lite Server上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
导入模型 - AI开发平台ModelArts
导入模型 - AI开发平台ModelArts

息时，则可不填，后台自动从配置文件的apis字段中读取输出参数信息。 dependencies 否 dependency结构数组运行代码及模型需安装的依赖包，默认为空。如果已在模型配置文件中配置dependencies信息时，则可不填，后台自动从配置文件的dependencies字段中读取需要安装的依赖包。

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
推理精度测试 - AI开发平台ModelArts

--batch-size 4 \ -w {output_path} --debug 参数说明如下： --datasets：评测的数据集及评测方法，其中 mmlu 是数据集，ppl 是评测方法。 --hf-type：HuggingFace模型权重类型(base,chat)，默认为chat，依据实际的模型选择。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）

总条数： 1211

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

性能调优 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

管理AI Gallery数据集 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

各模型支持的最小卡数和最大序列 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

模型配置文件编写说明 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

使用ModelArts Studio的DeepSeek-R1模型框架实现对话问答 - AI开发平台ModelArts

自定义镜像使用场景 - AI开发平台ModelArts

创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

导入模型 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线