搜索_华为云

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

如果机器与容器镜像仓库在同一区域，则上传镜像走内网链路。如果机器与容器镜像仓库不在同一区域，则上传镜像走公网链路，机器需要绑定弹性公网IP。使用客户端上传镜像，镜像的每个layer大小不能大于10G。上传镜像的容器引擎客户端版本必须为1.11.2及以上。连接容器镜像服务。登录容器镜像服务控制台。单击

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
创建处理任务 - AI开发平台ModelArts

name 否 String 算子名称。 params 否 Object 算子参数，参数类型是map<string,object>，object目前只支持Boolean、Integer、Long、String、List[/topic/body/section/table/tgroup/tbody/row/entry/p/br

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
推理性能测试 - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） > 推理性能测试
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
迁移过程使用工具概览 - AI开发平台ModelArts

迁移过程使用工具概览基础的开发工具在迁移的预置镜像和开发环境中都已经进行预置，用户原则上不需要重新安装和下载，如果预置的版本不满足要求，用户可以执行下载和安装与覆盖操作。模型自动转换评估工具Tailor 为了简化用户使用，ModelArts提供了Tailor工具，将模型转换、

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
推理场景介绍 - AI开发平台ModelArts

支持的rope scaling类型本方案支持的rope scaling类型包括linear、dynamic和yarn，其中linear方法只支持传入一个固定的scaling factor值，暂不支持传入列表。模型软件包结构说明本教程需要使用到的AscendCloud-6.3.

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

通过vLLM服务API接口启动服务时，推理请求不涉及此参数。 prompt 是 - Str 请求输入的问题。 max_tokens 否 16 Int 每个输出序列要生成的最大tokens数量。 top_k 否 -1 Int 控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理性能测试
创建智能标注作业 - AI开发平台ModelArts

支持的节点规格选项。计算节点个数默认为1。您可以根据您的实际情况选择，最大为5。针对“物体检测”类型的标注作业，选择“主动学习”时，只支持识别和标注矩形框。图1 启动智能标注（图像分类）图2 启动智能标注（物体检测）图3 启动智能标注（预标注）完成参数设置后，单击“提交”，即可启动智能标注。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过智能标注方式标注数据
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表1。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化

总条数： 539

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

创建处理任务 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

创建智能标注作业 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线