搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。 Step1使用tensorRT量化工具进行模型量化在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化，工具下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。 Step1使用tensorRT量化工具进行模型量化使用tensorRT 0.9.0版本工具进行模型量化，工具下载使用指导请参见https://github

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

en时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用MaaS压缩模型 - AI开发平台ModelArts

（PTQ）方法，W8A8可实现8-bit权重、8-bit激活（W8A8）量化，引入平滑因子来平滑激活异常值，将量化难度从较难量化的激活转移到容易量化的权重上。 AWQ-W4A16：AWQ是一种大模型低比特权重的训练后量化（PTQ）方法，W4A16可实现4-bit权重、16-bit

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

和nvidia-fabricmanager等软件后，驱动程序可能已经正确配置，从而解决了这个问题。硬件问题：如果GPU之间的NVLINK连接存在硬件故障，那么这可能会导致带宽受限。重新安装软件后，重启系统，可能触发了某种硬件自检或修复机制，从而恢复了正常的带宽。系统负载问题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。 Step1使用tensorRT量化工具进行模型量化在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化，工具下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

hQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

hQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

创建OBS桶 ModelArts使用对象存储服务（Object Storage Service，简称OBS）存储输入输出数据、运行代码和模型文件，实现安全、高可靠和低成本的存储需求。因此，在使用ModelArts之前通常先创建一个OBS桶，然后在OBS桶中创建文件夹用于存放数据。本文档

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
使用kv-cache-int8量化 - AI开发平台ModelArts

thquant的组合。 kv-cache-int8量化支持的模型请参见表1。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。 Step1使用tensorRT量化工具进行模型量化使用tensorRT 0.9.0版本工具进行模型量化，工具下载使用指导请参见https://github

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

en时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
OBS操作相关故障 - AI开发平台ModelArts

OBS操作相关故障读取文件报错，如何正确读取文件 TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示“BrokenPipeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
发布模型到AI Gallery - AI开发平台ModelArts

发布模型到AI Gallery 除了Gallery提供的已有资产外，还可以将个人创建的资产发布至Gallery货架上，供其他AI开发者使用，实现资产共享。模型资产上架登录AI Gallery，选择右上角“我的Gallery”。在左侧“我的资产 > 模型”下，选择未发布的模型，单击模型名称，进入模型详情页。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
发布镜像到AI Gallery - AI开发平台ModelArts

发布镜像到AI Gallery 除了Gallery提供的已有资产外，还可以将个人创建的资产发布至Gallery货架上，供其他AI开发者使用，实现资产共享。镜像资产上架登录AI Gallery，选择右上角“我的Gallery”。在“我的资产 > 镜像”下，选择未发布的镜像，单击镜像名称，进入镜像详情页。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像
LLaVA模型基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

NPU推理指导（6.3.906） LLaVA是一种新颖的端到端训练的大型多模态模型，它结合了视觉编码器和Vicuna，用于通用的视觉和语言理解，实现了令人印象深刻的聊天能力，在科学问答（Science QA）上达到了新的高度。本文档主要介绍如何利用ModelArts Lite Dev

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
LLaVA模型基于Lite Server适配PyTorch NPU预训练指导（6.3.912） - AI开发平台ModelArts

NPU预训练指导（6.3.912） LLaVA是一种新颖的端到端训练的大型多模态模型，它结合了视觉编码器和Vicuna，用于通用的视觉和语言理解，实现了令人印象深刻的聊天能力，在科学问答（Science QA）上达到了新的高度。本文档主要介绍如何利用ModelArts Lite Ser

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
使用AWQ量化工具转换权重 - AI开发平台ModelArts

需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel, W8A16 per-channel Step1 模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化

总条数： 690

上一页
1
...
15
16
17
...
35
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用MaaS压缩模型 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

OBS操作相关故障 - AI开发平台ModelArts

发布模型到AI Gallery - AI开发平台ModelArts

发布镜像到AI Gallery - AI开发平台ModelArts

LLaVA模型基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

LLaVA模型基于Lite Server适配PyTorch NPU预训练指导（6.3.912） - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线