搜索_华为云

场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

推理部署使用的服务框架是vLLM。vLLM支持v0.4.2版本。仅支持FP16和BF16数据类型推理。本案例仅支持在专属资源池上运行。支持的模型列表本方案支持的模型列表、对应的开源权重获取地址如表1所示。表1 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理是否支持W4A16量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
按需计费 - AI开发平台ModelArts
按需计费 - AI开发平台ModelArts

计算资源支持按需计费。表1 适用计费项计费项说明计算资源公共资源池包括vCPU、GPU和NPU。 AI专属资源池中的Standard资源池 ModelArts支持购买两种按需计费的资源池，包括公共资源池和专属资源池。假设您计划购买按需计费的专属资源池，可在ModelArts控制台“AI专属资源池

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

job形式下发lite池集群。训练测试用例使用NLP的bert模型，详细代码和指导可参考Bert。图1 任务示意图操作步骤拉取镜像。本测试镜像为bert_pretrain_mindspore:v1，已经把测试数据和代码打进镜像中。 docker pull swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
分离部署推理服务 - AI开发平台ModelArts

"software|firmware" #查看驱动和固件版本如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。检查docker是否安装。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
使用AWQ量化 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16 per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16 per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

例中的桶名称“test-modelarts” 和文件夹名称均为举例，请替换为用户自定义的名称。创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。请确保您使用的OBS与ModelArts在同一区域。表1 OBS桶文件夹列表文件夹名称用途 “obs://test-mo

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
查看ModelArts模型详情 - AI开发平台ModelArts

推理加速卡类型显示推理加速卡类型。表4 模型页签详情参数说明模型精度显示该模型的模型召回率、精准率、准确率和F1值。参数配置可以查看模型的apis定义详情，以及模型的入参和出参。运行时依赖查看模型对环境的依赖。当构建任务失败后可以编辑运行时依赖，保存修改后将触发镜像重新构建。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
使用AWQ量化 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16 per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
构建条件节点控制分支执行 - AI开发平台ModelArts

一个ConditionStep支持多个Condition对象，使用list表示，多个Condition之间进行&&操作。 if_then_steps和else_then_steps。 if_then_steps表示的是当Condition比较的结果为true时允许执行的节点列表，存储的是节

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

推理部署使用的服务框架是vLLM。vLLM支持v0.5.0版本。仅支持FP16和BF16数据类型推理。本案例仅支持在专属资源池上运行。专属资源池驱动版本要求23.0.6。适配的CANN版本是cann_8.0.rc3。支持的模型列表和权重文件本方案支持vLLM的v0.5.0版本。不同vLLM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
构造请求 - AI开发平台ModelArts
构造请求 - AI开发平台ModelArts

me为用户所属的账号名，user_password为用户登录密码，cn-north-1为项目名称，获取方法请参见获取用户名、获取账号名和账号ID和获取项目名称。 scope参数定义了Token的作用域，示例中获取的Token仅能访问project下的资源。Modelarts使用区

 帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。仅支持FP16和BF16数据类型推理。本案例仅支持在专属资源池上运行。专属资源池驱动版本要求23.0.6。适配的CANN版本是cann_8.0.rc3。支持的模型列表和权重文件本方案支持vLLM的v0.6.0版本。不同vLLM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

关闭详细日志命令： unset DETAIL_TIME_LOG 配置后重启推理服务生效。 Step7 推理性能和精度测试推理性能和精度测试操作请参见推理性能测试和推理精度测试。附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明基于vLLM（v0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
不同机型的对应的软件配套版本 - AI开发平台ModelArts

28（推荐）集群规模：50|200|1000|2000 集群网络模式：容器隧道网络|VPC 集群转发模式：iptables|ipvs 驱动和插件版本与CCE集群版本适配关系表3 插件版本与CCE集群版本适配关系类别插件名称插件版本适配CCE集群版本适用范围、约束插件功能描述

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
自定义脚本代码示例 - AI开发平台ModelArts

理代码和配置文件也需遵循ModelArts的要求。本章节提供针对常用AI引擎的自定义脚本代码示例（包含推理代码示例）。模型推理代码编写的通用方法及说明请见模型推理代码编写说明。 Tensorflow TensorFlow存在两种接口类型，keras接口和tf接口，其训练和保存模

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
昇腾迁移融合算子API替换样例 - AI开发平台ModelArts

昇腾迁移融合算子API替换样例部分torch原生的API在下发和执行时会包括多个小算子，下发和执行耗时较长，可以通过替换成NPU API来使能融合算子，提升训练性能。 API替换总览 •torch_npu.optim.NpuFusedAdamW •optimizer.clip_grad_norm_fused_

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > MA-Advisor自动诊断工具使用指导
Lite Cluster资源配置流程 - AI开发平台ModelArts

Cluster环境配置详细流程，适用于加速卡环境配置。前提条件已完成集群资源购买和开通，具体请参见Lite Cluster资源开通。集群的配置使用需要用户具备一定的知识背景，包括但不限于Kubernetes基础知识、网络知识、存储和镜像知识。配置流程图1 Lite Cluster资源配置流程图

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
查询训练作业列表 - AI开发平台ModelArts

参数说明如表1所示。表1 路径参数参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型说明 status 否 String 作业状态的查询，默认为所有状态，例如查看创建失

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

步骤一：下载ModelArts SDK 步骤二：配置运行环境步骤三：安装ModelArts SDK ModelArts SDK支持安装在Windows和Linux操作系统中。如果在Windows上安装ModelArts SDK时出现报错，可参见FAQ：安装ModelArts SDK报错处理报错。

帮助中心 > AI开发平台ModelArts > SDK参考

总条数： 1193

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

场景介绍 - AI开发平台ModelArts

按需计费 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

查看ModelArts模型详情 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

构建条件节点控制分支执行 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

构造请求 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

自定义脚本代码示例 - AI开发平台ModelArts

昇腾迁移融合算子API替换样例 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线