搜索_华为云

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingfac

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingfac

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
访问在线服务支持的认证方式 - AI开发平台ModelArts

访问在线服务支持的认证方式通过Token认证的方式访问在线服务通过AK/SK认证的方式访问在线服务通过APP认证的方式访问在线服务父主题：将模型部署为实时推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
使用AWQ量化 - AI开发平台ModelArts

QWEN+AWQ 方式二：使用AutoAWQ量化工具进行量化。 AutoAWQ量化工具的适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/AutoAWQ目录下。 1、在容器中使用ma-user用户, vLLM使用transformers版

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。多模态只支持hf上下载的awq权重，可跳过步骤一。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用镜像 - AI开发平台ModelArts
使用镜像 - AI开发平台ModelArts

在详情页面您可以查看镜像的AI引擎框架、使用芯片、镜像URL、包含的依赖项等信息。复制镜像URL，可以在ModelArts控制台“镜像管理”注册并使用该镜像。父主题：订阅使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
ModelArts Standard使用流程 - AI开发平台ModelArts

台。具体请参见推理部署使用场景。 Standard使用流程说明 ModelArts Standard平台提供了从数据准备到模型部署的AI全流程开发，兼容开发者的使用习惯，支持多种引擎和用户场景，使用自由度较高。针对AI开发的每个环节，Standard功能使用相对自由，您可以根据实

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
使用AWQ量化 - AI开发平台ModelArts

QWEN+AWQ 方式二：使用AutoAWQ量化工具进行量化。 AutoAWQ量化工具的适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/AutoAWQ目录下。 1、在容器中使用ma-user用户， vLLM使用transformers版

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel,

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
量化 - AI开发平台ModelArts
量化 - AI开发平台ModelArts

量化 W4A16量化 W8A8量化 W8A16量化 kv-cache-int8量化父主题：推理关键特性使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
分离部署 - AI开发平台ModelArts
分离部署 - AI开发平台ModelArts

分离部署 PD分离部署使用说明父主题：推理关键特性使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
投机推理 - AI开发平台ModelArts
投机推理 - AI开发平台ModelArts

投机推理投机推理使用说明 Eagle投机小模型训练父主题：推理关键特性使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
数据准备使用流程 - AI开发平台ModelArts

数据准备使用流程 ModelArts是面向AI开发者的一站式开发平台，能够支撑开发者从数据到模型的全流程开发过程，包含数据处理、算法开发、模型训练、模型部署等操作。并且提供AI Gallery功能，能够在市场内与其他开发者分享数据、算法、模型等。为了能帮用户快速准备大量高质量的数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
使用MaaS调优模型 - AI开发平台ModelArts

后模型权重保存路径”的OBS路径下。资源设置资源池类型资源池分为公共资源池与专属资源池。公共资源池供所有租户共享使用。专属资源池需单独创建，不与其他租户共享。规格选择规格，规格中描述了服务器类型、型号等信息，仅显示模型支持的资源。计算节点个数当计算节点个数大于1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
创建IAM用户并授权使用MaaS - AI开发平台ModelArts

池的创建、更新、删除权限，只有使用权限。推荐给子用户配置此权限。如果需要给子用户开通专属资源池的创建、更新、删除权限，此处要勾选ModelArts FullAccess，请谨慎配置。图1 配置ModelArts使用权限配置其他依赖云服务的使用权限，此处以OBS为例，搜索OBS，勾选“OBS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 配置MaaS访问授权
支持哪些其他操作？ - AI开发平台ModelArts

自动学习生成的模型，存储在哪里？支持哪些其他操作？模型统一管理针对自动学习项目，当模型训练完成后，其生成的模型，将自动进入“模型管理”页面，如下图所示。模型名称由系统自动命名，前缀与自动学习项目的名称一致，方便辨识。自动学习生成的模型，不支持下载使用。图1 自动学习生成的模型自动学习生成的模型，支持哪些其他操作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用窍门
使用MaaS压缩模型 - AI开发平台ModelArts

8”时才需要配置。建议使用默认值。取值范围：0~1 默认值：0.5 压缩后模型权重保存路径选择压缩后模型权重文件存放的OBS路径。资源设置资源池类型资源池分为公共资源池与专属资源池。公共资源池供所有租户共享使用。专属资源池需单独创建，不与其他租户共享。实例规格选

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）

总条数： 2206

上一页
1
...
5
6
7
...
111
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

访问在线服务支持的认证方式 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用镜像 - AI开发平台ModelArts

ModelArts Standard使用流程 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

量化 - AI开发平台ModelArts

分离部署 - AI开发平台ModelArts

投机推理 - AI开发平台ModelArts

数据准备使用流程 - AI开发平台ModelArts

使用MaaS调优模型 - AI开发平台ModelArts

创建IAM用户并授权使用MaaS - AI开发平台ModelArts

支持哪些其他操作？ - AI开发平台ModelArts

使用MaaS压缩模型 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线