搜索_华为云

使用AWQ量化 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16 per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
构建条件节点控制分支执行 - AI开发平台ModelArts

一个ConditionStep支持多个Condition对象，使用list表示，多个Condition之间进行&&操作。 if_then_steps和else_then_steps。 if_then_steps表示的是当Condition比较的结果为true时允许执行的节点列表，存储的是节

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
使用AWQ量化 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16 per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。仅支持FP16和BF16数据类型推理。本案例仅支持在专属资源池上运行。专属资源池驱动版本要求23.0.6。适配的CANN版本是cann_8.0.rc3。支持的模型列表和权重文件本方案支持vLLM的v0.6.0版本。不同vLLM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

关闭详细日志命令： unset DETAIL_TIME_LOG 配置后重启推理服务生效。 Step7 推理性能和精度测试推理性能和精度测试操作请参见推理性能测试和推理精度测试。附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明基于vLLM（v0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

推理部署使用的服务框架是vLLM。vLLM支持v0.5.0版本。仅支持FP16和BF16数据类型推理。本案例仅支持在专属资源池上运行。专属资源池驱动版本要求23.0.6。适配的CANN版本是cann_8.0.rc3。支持的模型列表和权重文件本方案支持vLLM的v0.5.0版本。不同vLLM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
不同机型的对应的软件配套版本 - AI开发平台ModelArts

28（推荐）集群规模：50|200|1000|2000 集群网络模式：容器隧道网络|VPC 集群转发模式：iptables|ipvs 驱动和插件版本与CCE集群版本适配关系表3 插件版本与CCE集群版本适配关系类别插件名称插件版本适配CCE集群版本适用范围、约束插件功能描述

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
自定义脚本代码示例 - AI开发平台ModelArts

理代码和配置文件也需遵循ModelArts的要求。本章节提供针对常用AI引擎的自定义脚本代码示例（包含推理代码示例）。模型推理代码编写的通用方法及说明请见模型推理代码编写说明。 Tensorflow TensorFlow存在两种接口类型，keras接口和tf接口，其训练和保存模

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
创建Workflow服务部署节点 - AI开发平台ModelArts

创建Workflow服务部署节点功能介绍通过对ModelArts服务管理能力的封装，实现Workflow新增服务和更新服务的能力。主要应用场景如下：将模型部署为一个Web Service。更新已有服务，支持灰度更新等能力。属性总览您可以使用ServiceStep来构建

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
昇腾迁移融合算子API替换样例 - AI开发平台ModelArts

昇腾迁移融合算子API替换样例部分torch原生的API在下发和执行时会包括多个小算子，下发和执行耗时较长，可以通过替换成NPU API来使能融合算子，提升训练性能。 API替换总览 •torch_npu.optim.NpuFusedAdamW •optimizer.clip_grad_norm_fused_

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > MA-Advisor自动诊断工具使用指导
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

步骤一：下载ModelArts SDK 步骤二：配置运行环境步骤三：安装ModelArts SDK ModelArts SDK支持安装在Windows和Linux操作系统中。如果在Windows上安装ModelArts SDK时出现报错，可参见FAQ：安装ModelArts SDK报错处理报错。

帮助中心 > AI开发平台ModelArts > SDK参考
查询支持的镜像列表 - AI开发平台ModelArts

用户项目ID，获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 limit 否 Integer 每一页的数量，默认值200。 name 否 String 镜像名称，长度限制512个字符，支持小写字母、数字、中划线、下划线和点。 name_fuzzy_match

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
Lite Cluster资源配置流程 - AI开发平台ModelArts

Cluster环境配置详细流程，适用于加速卡环境配置。前提条件已完成集群资源购买和开通，具体请参见Lite Cluster资源开通。集群的配置使用需要用户具备一定的知识背景，包括但不限于Kubernetes基础知识、网络知识、存储和镜像知识。配置流程图1 Lite Cluster资源配置流程图

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

PU设备信息。 npu-smi info 如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）
构造请求 - AI开发平台ModelArts
构造请求 - AI开发平台ModelArts

me为用户所属的账号名，user_password为用户登录密码，cn-north-1为项目名称，获取方法请参见获取用户名、获取账号名和账号ID和获取项目名称。 scope参数定义了Token的作用域，示例中获取的Token仅能访问project下的资源。Modelarts使用区

 帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
查询训练作业列表 - AI开发平台ModelArts

参数说明如表1所示。表1 路径参数参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型说明 status 否 String 作业状态的查询，默认为所有状态，例如查看创建失

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
附录：训练常见问题 - AI开发平台ModelArts

json文件中的“merges”时保存的是拆开的列表不是字符串，导致推理异常解决措施，以下两种方法任选其一：更新transformes和tokenizers版本 GLM4-9B模型，容器内执行以下步骤： pip install transformers==4.43.2 其它模型，容器内执行以下步骤：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

json文件中的“merges”时保存的是拆开的列表不是字符串，导致推理异常解决措施，以下两种方法任选其一：更新transformes和tokenizers版本 GLM4-9B模型，容器内执行以下步骤： pip install transformers==4.43.2 其它模型，容器内执行以下步骤：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
附录：训练常见问题 - AI开发平台ModelArts

json文件中的“merges”时保存的是拆开的列表不是字符串，导致推理异常解决措施，以下两种方法任选其一： ①更新transformes和tokenizers版本 GLM4-9B模型，容器内执行以下步骤： pip install transformers==4.43.2 其它模型，容器内执行以下步骤：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
如何在Notebook中上传下载OBS文件？ - AI开发平台ModelArts

r1/') 异常处理通过OBS下载文件到Notebook中时，提示Permission denied。请依次排查：请确保读取的OBS桶和Notebook处于同一站点区域，例如：都在华北-北京四站点。不支持跨站点访问OBS桶。具体请参见查看OBS桶与ModelArts是否在同一个区域。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 文件上传下载

总条数： 1169

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AWQ量化 - AI开发平台ModelArts

构建条件节点控制分支执行 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

自定义脚本代码示例 - AI开发平台ModelArts

创建Workflow服务部署节点 - AI开发平台ModelArts

昇腾迁移融合算子API替换样例 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

查询支持的镜像列表 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

构造请求 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

如何在Notebook中上传下载OBS文件？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线