搜索_华为云

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel,

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

QWEN+AWQ 方式二：使用AutoAWQ量化工具进行量化。 AutoAWQ量化工具的适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/AutoAWQ目录下。 1、在容器中使用ma-user用户， vLLM使用transformers版

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
自定义引擎创建模型规范 - AI开发平台ModelArts

py启动服务器，app.py请参考https示例 python app.py 除了按上述要求设置启动命令，您也可以在镜像中自定义启动命令，在创建模型时填写与您镜像中相同的启动命令。提供的服务可使用HTTPS/HTTP协议和监听的容器端口，使用的协议和端口号请根据模型实际定义的推理接口

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
使用基础镜像 - AI开发平台ModelArts

使用基础镜像通过ECS获取和上传基础镜像将镜像上传至SWR服务后，可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，如果直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行 install.sh文件，来安装依赖以及下载完整代码。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现口罩检测该案例是使用华为云一站式AI开发平台ModelArts的新版“自动学习”功能，基于华为云AI开发者社区AI Gallery中的数据集资产，让零AI基础的开发者完成“物体检测”的AI模型的训练和部署。依据开发者提供的标注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

Prometheus 在HTTP的URL输入框中输入Prometheus的IP地址和端口号，单击Save&Test：图2 IP地址和端口号至此，指标监控方案安装完成。指标监控效果展示如下：图3 指标监控效果这里使用的是Grafana最基本的功能，如有更高级的诉求，可参考Grafana的官方文档。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

已注册华为账号并开通华为云，且在使用ModelArts前检查账号状态，账号不能处于欠费或冻结状态。配置委托访问授权 ModelArts使用过程中涉及到OBS、SWR、IEF等服务交互，首次使用ModelArts需要用户配置委托授权，允许访问这些依赖服务。使用华为云账号登录ModelA

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练
PD分离性能调优工具使用说明 - AI开发平台ModelArts

0.1,127.0.0.1"表示4个实例的ip均为127.0.0.1，ip的个数需要与port端口个数相同 port 各个实例的端口，"8088,8089,8090,8091"分别表示4个实例的端口 request_num 总请求数量 model_path 模型权重路径 served_model_name

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 分离部署
投机推理使用说明 - AI开发平台ModelArts

offline speculative_draft_tensor_parallel_size int 小模型所使用的设备数量，由于小模型通常较小，所以此处建议设置为1，如果使用eagle作为小模型，此处必须设置为1 offline speculative_disable_by_batch_size

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 投机推理
投机推理使用说明 - AI开发平台ModelArts

offline speculative_draft_tensor_parallel_size int 小模型所使用的设备数量，由于小模型通常较小，所以此处建议设置为1，如果使用eagle作为小模型，此处必须设置为1 offline speculative_disable_by_batch_size

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 投机推理
模型训练使用流程 - AI开发平台ModelArts

创建方式适用场景使用预置框架创建训练作业如果您已在本地使用一些常用框架完成算法开发，您可以选择常用框架，创建训练作业来构建模型使用自定义镜像创建训练作业如果您开发算法时使用的框架并不是常用框架，您可以将算法构建为一个自定义镜像，通过自定义镜像创建训练作业。使用已有算法创建训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
Notebook使用场景 - AI开发平台ModelArts

Toolkit、VS Code Toolkit，让远程连接操作更便捷。具体参见通过PyCharm远程使用Notebook实例、通过VS Code远程使用Notebook实例、通过SSH工具远程使用Notebook。在AI开发过程中，如何将文件方便快速地上传到Notebook几乎是每个开

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
服务状态一直处于“部署中” - AI开发平台ModelArts

一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。处理方法模型的端口没有配置，如您在自定义镜像配置文件中修改了端口号，需要在部署模型时，配置对应的端口号，使新的模型重新部署服务。如何修改默认端口号，请参考使用自定义镜像创建在线服务，如何修改默认端口。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
推理关键特性使用 - AI开发平台ModelArts

推理关键特性使用量化剪枝分离部署 Prefix Caching multi-step 投机推理图模式多模态 Chunked Prefill multi-lora guided-decoding 父主题：主流开源大模型基于Lite Server适配Ascend-vLLM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901）
推理关键特性使用 - AI开发平台ModelArts

推理关键特性使用量化剪枝分离部署 Prefix Caching multi-step 投机推理图模式多模态 Chunked Prefill multi-lora guided-decoding 父主题：主流开源大模型基于Lite Server适配Ascend-vLLM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
ModelArts Standard使用流程 - AI开发平台ModelArts

台。具体请参见推理部署使用场景。 Standard使用流程说明 ModelArts Standard平台提供了从数据准备到模型部署的AI全流程开发，兼容开发者的使用习惯，支持多种引擎和用户场景，使用自由度较高。针对AI开发的每个环节，Standard功能使用相对自由，您可以根据实

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
使用MaaS压缩模型 - AI开发平台ModelArts

Quant-W8A8”时才需要配置。建议使用默认值。取值范围：0~1 默认值：0.5 压缩后模型权重保存路径选择压缩后模型权重文件存放的OBS路径。资源设置资源池类型资源池分为公共资源池与专属资源池。公共资源池供所有租户共享使用。专属资源池需单独创建，不与其他租户共享。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
数据准备使用流程 - AI开发平台ModelArts

数据准备使用流程 ModelArts是面向AI开发者的一站式开发平台，能够支撑开发者从数据到模型的全流程开发过程，包含数据处理、算法开发、模型训练、模型部署等操作。并且提供AI Gallery功能，能够在市场内与其他开发者分享数据、算法、模型等。为了能帮用户快速准备大量高质量的数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

本案例介绍如何在ModelArts Lite场景下使用ranktable路由规划完成Pytorch NPU分布式训练任务，训练任务默认使用Volcano job形式下发到Lite资源池集群。图1 任务示意图约束与限制该功能只支持贵阳一区域，如果要在其他区域使用请联系技术支持。 ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用

总条数： 2356

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

0/200

提交反馈取消

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

自定义引擎创建模型规范 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

PD分离性能调优工具使用说明 - AI开发平台ModelArts

投机推理使用说明 - AI开发平台ModelArts

投机推理使用说明 - AI开发平台ModelArts

模型训练使用流程 - AI开发平台ModelArts

Notebook使用场景 - AI开发平台ModelArts

服务状态一直处于“部署中” - AI开发平台ModelArts

推理关键特性使用 - AI开发平台ModelArts

推理关键特性使用 - AI开发平台ModelArts

ModelArts Standard使用流程 - AI开发平台ModelArts

使用MaaS压缩模型 - AI开发平台ModelArts

数据准备使用流程 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线