搜索_华为云

使用SmoothQuant量化 - AI开发平台ModelArts

--per-channel：权重量化方法，如果指定则为per-channel粒度量化，否则为per-tensor粒度量化。启动smoothQuant量化服务。参考步骤六启动推理服务，启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant --dtype=float16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

--per-channel：权重量化方法，若指定则为per-channel粒度量化，否则为per-tensor粒度量化。启动smoothQuant量化服务。参考Step3 启动推理服务，启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant 父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

3fn"。dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务参考Step3 启动推理服务，启动推理服务时添加如下命令。 --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

3fn"。dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务参考Step3 启动推理服务，启动推理服务时添加如下命令。 --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

如果指定则为per-channel粒度量化，否则为per-tensor粒度量化。启动smoothQuant量化服务。参考Step6 启动推理服务，启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant --dtype=float16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

如果指定则为per-channel粒度量化，否则为per-tensor粒度量化。启动smoothQuant量化服务。参考Step3 启动推理服务，启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant --dtype=float16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

ype类型不影响int8的scale系数的抽取和加载。启动kv-cache-int8-per-tensor量化服务。在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8_pertensor #只支持int8，表示kvint8

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

性能预期：QPS 20/s - 业务访问方式推理业务访问：“客户端 -> 云服务” 或 “云客户端 -> 云服务”。推理业务时延要求，客户端到云服务端到端可接受时延。例如：当前是“客户端 -> 云服务”模式，客户端请求应答可接受的最长时延为2秒。 - 模型参数规模，是否涉及分布式推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

Server算力资源和镜像版本配套关系 Lite Server提供多种NPU、GPU镜像，您可在购买前了解当前支持的镜像及对应详情。 NPU Snt9裸金属服务器支持的镜像详情镜像名称：ModelArts-Euler2.8_Aarch64_Snt9_C78 表1 镜像详情软件类型版本详情操作系统

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
给子账号配置文件夹级的SFS Turbo访问权限 - AI开发平台ModelArts

求配置需要的ModelArts服务的权限（参见依赖和委托中ModelArts服务对应的依赖策略项）。操作步骤使用主用户账号登录管理控制台，鼠标放在右上角用户名，在下拉框中选择“统一身份认证”，进入统一身份认证（IAM）服务。在统一身份认证服务页面的左侧导航选择“权限管理 >

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
使用llm-compressor工具量化 - AI开发平台ModelArts

致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用llm-compressor工具量化 - AI开发平台ModelArts

致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用llm-compressor工具量化 - AI开发平台ModelArts

致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
训练预测分析模型 - AI开发平台ModelArts

训练预测分析模型创建自动学习后，将会进行模型的训练，得到预测分析的模型。模型部署步骤将使用预测模型发布在线预测服务。操作步骤在新版自动学习页面，单击创建成功的项目名称，查看当前工作流的执行情况。在“预测分析”节点中，待节点状态由“运行中”变为“运行成功”，即完成了模型的自动训练。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
Step1 创建用户组并加入用户 - AI开发平台ModelArts

骤介绍如何创建用户组、子账号、并将子账号加入用户组中。主用户登录管理控制台，单击右上角用户名，在下拉框中选择“统一身份认证”，进入IAM服务。图1 统一身份认证创建用户组。在左侧菜单栏中，选择“用户组”。单击右上角“创建用户组”，在“用户组名称”中填入“用户组02”，然后单击“确定”完成用户组创建。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
将AI Gallery中的模型部署为AI应用 - AI开发平台ModelArts

在“运行时长控制”选择是否指定运行时长。不限时长：不限制作业的运行时长，AI Gallery工具链服务部署完成后将一直处于“运行中”。指定时长：设置作业运行几小时后停止，当AI Gallery工具链服务运行时长达到指定时长时，系统将会暂停作业。时长设置不能超过计算资源的剩余额度。说明：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
AI Gallery使用流程 - AI开发平台ModelArts

Gallery中的模型部署为AI应用。发布后的资产，可通过微调大师训练模型和在线推理服务部署模型，具体可参见使用AI Gallery微调大师训练模型、使用AI Gallery在线推理服务部署模型。图1 AI Gallery使用流程 AI Gallery也支持管理从Model

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
管理标注作业 - AI开发平台ModelArts

管理标注作业查看标注作业在ModelArts数据标注页面可查看用户自己创建的标注作业。登录ModelArts管理控制台，在左侧菜单栏选择“数据准备>数据标注”，进入数据标注页面。在“我创建的”页签，可查看自己创建的标注作业。用户可查看自己创建的标注作业的相关信息。图1 我创建的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据
Controlnet训练 - AI开发平台ModelArts

k" Step2 启动SD1.5训练服务使用ma-user用户执行如下命令运行训练脚本。 cd /home/ma-user/diffusers sh diffusers_controlnet_train.sh Step3 启动sdxl训练服务使用ma-user用户执行如下命令运行训练脚本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
在Windows上安装配置Grafana - AI开发平台ModelArts

进入下载链接，单击Download the installer，等待下载成功即可。安装Grafana。双击安装包，按照指示流程安装完成即可。在Windows的“服务”中，找到Grafana，将其开启，如果已经开启，则直接进入4。登录Grafana。 Grafana默认在本地的3000端口启动，打开链

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana

总条数： 2169

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

给子账号配置文件夹级的SFS Turbo访问权限 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

训练预测分析模型 - AI开发平台ModelArts

Step1 创建用户组并加入用户 - AI开发平台ModelArts

将AI Gallery中的模型部署为AI应用 - AI开发平台ModelArts

AI Gallery使用流程 - AI开发平台ModelArts

管理标注作业 - AI开发平台ModelArts

Controlnet训练 - AI开发平台ModelArts

在Windows上安装配置Grafana - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线