搜索_华为云

主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） - AI开发平台ModelArts

NPU推理指导（6.3.908）推理场景介绍部署推理服务推理性能测试推理精度测试推理模型量化附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

推理场景介绍部署推理服务推理性能测试推理精度测试推理模型量化 Eagle投机小模型训练附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
使用AWQ量化工具转换权重 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化，量化方法为per-group。 Step1 模型量化可以在Hu

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

推理场景介绍部署推理服务推理性能测试推理精度测试推理模型量化 eagle投机小模型训练附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
模型管理计费项 - AI开发平台ModelArts

对象存储OBS 用于存储训练和推理的输入数据和输出结果数据。具体费用可参见对象存储价格详情。注意：存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除，则会按照OBS的计费规则进行持续计费。按需计费包年/包月创建桶不收取费用，按实际使用的存储容量和时长收费计费示例示例：存储费用

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

NPU推理指导（6.3.909）推理场景介绍准备工作部署推理服务推理性能测试推理精度测试推理模型量化附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题附录：工作负载Pod异常问题和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
ModelArts入门实践 - AI开发平台ModelArts

本案例介绍了如何使用ModelArts Standard专属资源池提供的计算资源，结合SFS和OBS存储，在ModelArts Standard的训练环境中开展单机单卡、单机多卡、多机多卡分布式训练。面向熟悉代码编写和调测的AI工程师，同时了解SFS和OBS云服务从 0 制作自定义镜像并用于训练（Pytorch+CPU/GPU）

帮助中心 > AI开发平台ModelArts > 快速入门
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表1。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

NPU推理指导（6.3.907）推理场景介绍部署推理服务推理性能测试推理精度测试推理模型量化附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

创建OBS桶 ModelArts使用对象存储服务（Object Storage Service，简称OBS）存储输入输出数据、运行代码和模型文件，实现安全、高可靠和低成本的存储需求。因此，在使用ModelArts之前通常先创建一个OBS桶，然后在OBS桶中创建文件夹用于存放数据。本文档也

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
使用kv-cache-int8量化 - AI开发平台ModelArts

量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。 Step1使用tensorRT量化工具进行模型量化在GPU机器上使用tensorRT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

推理场景介绍准备工作部署推理服务推理性能测试推理精度测试推理模型量化 Eagle投机小模型训练附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题附录：工作负载Pod异常问题和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

用户自定义镜像没有ma-user用户及ma-group用户组；用户自定义镜像中/home/ma-user目录，属主和用户组不是ma-user和ma-group；用户自定义镜像必须满足用户目录/home/ma-user权限为750，不能为其他权限；用户自定义镜像使用远程SSH功能，OpenSSH版本要兼容或高于8

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
模型管理 - AI开发平台ModelArts
模型管理 - AI开发平台ModelArts

模型管理创建模型失败，如何定位和处理问题？导入模型提示该账号受限或者没有操作权限用户创建模型时构建镜像或导入文件失败创建模型时，OBS文件目录对应镜像里面的目录结构是什么样的？通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志通过O

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
JupyterLab常用功能介绍 - AI开发平台ModelArts

er”、“number” 、“raw”和“string”。表单字段类型为“slider”时，支持输入滑动条的最小值、最大值和步长。 Hide code 隐藏代码区域。 Hide form 隐藏表单区域。 Show all 同时展示code和form区域。图19 “dropdo

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

创建OBS桶 ModelArts使用对象存储服务（Object Storage Service，简称OBS）存储输入输出数据、运行代码和模型文件，实现安全、高可靠和低成本的存储需求。因此，在使用ModelArts之前通常先创建一个OBS桶，然后在OBS桶中创建文件夹用于存放数据。本文档也

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 准备工作

总条数： 1563

上一页
1
...
74
75
76
...
79
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） - AI开发平台ModelArts

主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

模型管理计费项 - AI开发平台ModelArts

主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

ModelArts入门实践 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

模型管理 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

JupyterLab常用功能介绍 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线