搜索_华为云

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

配置需要使用的NPU卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡，如果希望使用第一和第二张卡，则“export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用VS Code创建并调试训练作业 - AI开发平台ModelArts

通过简易的操作，实现在本地IDE中进行训练配置、资源监控、作业管理、代码管理等动作。本章节介绍如何使用VS Code插件创建训练作业并调试。使用VS Code插件创建训练作业并调试功能目前是白名单，需要提交工单申请开通。准备工作创建OBS桶，桶名称示例：“xxx-proj

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
使用基础镜像 - AI开发平台ModelArts

使用基础镜像通过ECS获取和上传基础镜像将镜像上传至SWR服务后，可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，如果直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行install.sh文件，来安装依赖以及下载完整代码。命令如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

使用基础镜像通过ECS获取和上传基础镜像将镜像上传至SWR服务后，可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，如果直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行 install.sh文件，来安装依赖以及下载完整代码。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

使用基础镜像通过ECS获取和上传基础镜像将镜像上传至SWR服务后，可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，如果直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行install.sh文件，来安装依赖以及下载完整代码。命令如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

使用基础镜像通过ECS获取和上传基础镜像将镜像上传至SWR服务后，可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，如果直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行install.sh文件，来安装依赖以及下载完整代码。命令如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
使用前必读 - AI开发平台ModelArts

户密码、分配用户权限等。由于账号是付费主体，为了确保账号安全，建议您不要直接使用账号进行日常管理工作，而是创建IAM用户并使用他们进行日常管理工作。 IAM用户由账号在IAM中创建的用户，是云服务的使用人员，具有身份凭证（密码和访问密钥）。在我的凭证下，您可以查看账号ID和I

帮助中心 > AI开发平台ModelArts > API参考
使用AWQ量化 - AI开发平台ModelArts

https://huggingface.co/models?sort=trending&search=QWEN+AWQ 方式二：使用AutoAWQ量化工具进行量化。在容器中使用ma-user用户运行以下命令下载并安装AutoAWQ源码。 git clone -b v0.2.5 https://github.c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

sort=trending&search=QWEN+AWQ 方式二：使用AutoAWQ量化工具进行量化。执行如下命令进入容器，并进入AutoAWQ目录下， vLLM使用transformers版本与awq冲突，需要切换conda环境，运行以下命令下载并安装AutoAWQ源码。 kubectl exec

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

sort=trending&search=QWEN+AWQ 方式二：使用AutoAWQ量化工具进行量化。执行如下命令进入容器，并进入AutoAWQ目录下， vLLM使用transformers版本与awq冲突，需要切换conda环境，运行以下命令下载并安装AutoAWQ源码。 kubectl exec

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用基础镜像 - AI开发平台ModelArts

使用基础镜像通过ECS获取和上传基础镜像将镜像上传至SWR服务后，可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，若直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行 install.sh 文件，来安装依赖以及下载完整代码。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

使用基础镜像通过ECS获取和上传基础镜像将镜像上传至SWR服务后，可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，如果直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行 install.sh文件，来安装依赖以及下载完整代码。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

授予子用户使用CES云监控服务的权限。通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况，并设置监控告警。 CES FullAccess 可选 SMN消息服务授予子用户使用SMN消息服务的权限。SMN消息通知服务配合CES监控告警功能一起使用。 SMN

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权
使用基础镜像 - AI开发平台ModelArts

使用基础镜像通过ECS获取和上传基础镜像将镜像上传至SWR服务后，可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，如果直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行install.sh文件，来安装依赖以及下载完整代码。命令如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
使用MaaS压缩模型 - AI开发平台ModelArts

（W8A8）量化，引入平滑因子来平滑激活异常值，将量化难度从较难量化的激活转移到容易量化的权重上。 AWQ-W4A16：AWQ是一种大模型低比特权重的训练后量化（PTQ）方法，W4A16可实现4-bit权重、16-bit激活（W4A16）量化，通过激活值来选择并放大显著权重，以提高推理效率。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）

总条数： 2206

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用VS Code创建并调试训练作业 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用前必读 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用MaaS压缩模型 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线