搜索_华为云

使用llm-compressor工具量化 - AI开发平台ModelArts

使用llm-compressor工具量化当前版本使用llm-compressor工具量化仅支持Deepseek-v2系列模型的W8A8量化。本章节介绍如何在GPU的机器上使用开源量化工具llm-compressor量化模型权重，然后在NPU的机器上实现推理量化。具体操作如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
管理同步在线服务 - AI开发平台ModelArts

管理同步在线服务查看在线服务详情查看在线服务的事件管理在线服务生命周期修改在线服务配置在云监控平台查看在线服务性能指标集成在线服务API至生产环境中应用设置在线服务故障自动重启父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题问题现象创建模型成功后，部署服务失败，如何定位是模型代码编写有问题。原因分析用户自定义镜像或者通过基础镜像导入的模型时，用户自己编写了很多自定义的业务逻辑，这些逻辑有问题将会导致服务部署或者预测失败，需要能够排查出哪里有问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

物理内存使用率 ma_container_memory_util 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。百分比（Percent） 0～100% 连续2个周期原始值 > 95% 建议排查是否符合业务资源使用预期，如果业务无问题，无需处理。物理内存使用量 m

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
在JupyterLab中创建定时任务 - AI开发平台ModelArts

Notebook支持创建定时任务。本文档介绍了如何创建定时任务、一键运行Notebook文件，从而提高工作效率。功能亮点一键运行：允许用户一键运行Notebook文件，无需逐个执行Cell。定时任务调度：允许用户设置定时执行代码块的时间和频率。支持秒、分钟、小时和每天/每周/月的时间设置。支持参数化执

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
ModelArts在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

ModelArts在线服务预测时，如何提高预测速度？部署在线服务时，您可以选择性能更好的“实例规格”提高预测速度。例如使用GPU资源代替CPU资源。部署在线服务时，您可以增加“实例数”。如果实例数设置为1，表示后台的计算模式是单机模式；如果实例数设置大于1，表示后台的计算模式为分布式的。您可以根据实际需求进行选择。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

已注册华为账号并开通华为云，且在使用ModelArts前检查账号状态，账号不能处于欠费或冻结状态。配置委托访问授权 ModelArts使用过程中涉及到OBS、SWR、IEF等服务交互，首次使用ModelArts需要用户配置委托授权，允许访问这些依赖服务。使用华为云账号登录ModelA

帮助中心 > AI开发平台ModelArts > 快速入门
投机推理使用说明 - AI开发平台ModelArts

speculative_draft_tensor_parallel_size int 小模型所使用的设备数量，由于小模型通常较小，所以此处建议设置为1，如果使用eagle作为小模型，此处必须设置为1 offline speculative_disable_by_batch_size int

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 投机推理
Notebook使用场景 - AI开发平台ModelArts

Code Toolkit，让远程连接操作更便捷。具体参见通过PyCharm远程使用Notebook实例、通过VS Code远程使用Notebook实例、通过SSH工具远程使用Notebook。在AI开发过程中，如何将文件方便快速地上传到Notebook几乎是每个开发者都会遇到的问题。M

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见表1。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。 Step1使用tensorRT量化工具进行模型量化使用tensorRT 0.9.0版本工具进行模型量化，工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
配置Grafana数据源 - AI开发平台ModelArts

配置说明 Name 自定义名称。 URL 设置为从c.从“设置”页签的“Grafana数据源配置信...获取的HTTP URL信息。 Basic auth 建议开启。 Skip TLS Verify 建议开启。 User 设置为从c.从“设置”页签的“Grafana数据源配置信..

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
在ModelArts中训练好后的模型如何获取？ - AI开发平台ModelArts

在ModelArts中训练好后的模型如何获取？使用自动学习产生的模型只能在ModelArts上部署上线，无法下载至本地使用。使用自定义算法或者订阅算法训练生成的模型，会存储至用户指定的OBS路径中，供用户下载。父主题： Standard模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
使用kv-cache-int8量化 - AI开发平台ModelArts

见支持的模型列表和权重文件。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。 Step1使用tensorRT量化工具进行模型量化在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化，工具下载使用指导请参见https://github.c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。 Step1使用tensorRT量化工具进行模型量化使用tensorRT 0.9.0版本工具进行模型量化，工具下载使用指导请参见https://github.com/N

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

见支持的模型列表和权重文件。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。 Step1使用tensorRT量化工具进行模型量化在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化，工具下载使用指导请参见https://github.c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

见支持的模型列表和权重文件。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。 Step1使用tensorRT量化工具进行模型量化在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化，工具下载使用指导请参见https://github.c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化

总条数： 2363

上一页
1
...
5
6
7
...
119
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用llm-compressor工具量化 - AI开发平台ModelArts

管理同步在线服务 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

在JupyterLab中创建定时任务 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

ModelArts在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

投机推理使用说明 - AI开发平台ModelArts

Notebook使用场景 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

配置Grafana数据源 - AI开发平台ModelArts

在ModelArts中训练好后的模型如何获取？ - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线