搜索_华为云

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

0.1:8080/goodbye 图3 访问在线服务 limit/request配置cpu和内存大小，已知单节点Snt9B机器为：8张Snt9B卡+192u1536g，请合理规划，避免cpu和内存限制过小引起任务无法正常运行。父主题： Lite Cluster资源使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
ModelArts Standard训练作业和模型部署如何收费？ - AI开发平台ModelArts

ModelArts Standard训练作业和模型部署如何收费？ Standard中训练作业如何收费？如果您使用的是公共资源池，则根据您选择的规格、节点数、运行时长进行计费。计费规则为“规格单价×节点数×运行时长”（运行时长精确到秒）。如果您使用的是专属资源池，则训练作业就不再进行单独计费。由专属资源池进行收费。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
使用TMS标签实现资源分组管理 - AI开发平台ModelArts

用户也可以在ModelArts任务中添加标签时，创建新的标签，直接输入标签键和标签值即可。此处创建的标签仅当前的项目Project可见。不同的项目中查看不到。 Step3 在TMS中根据资源类型查询ModelArts资源使用情况登录TMS控制台，在资源标签页面根据资源类型和资源标签查询指定区域的资源任务。区域：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
如何上传数据至OBS？ - AI开发平台ModelArts

善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具，对于熟悉命令行程序的用户，obsutil是执行批量处理、自动化任务的好的选择。如果您的业务环境需要通过API或SDK执行数据上传操作，或者您习惯于使用API和SDK，推

 帮助中心 > AI开发平台ModelArts > 常见问题 > 历史文档待下线
W4A16量化 - AI开发平台ModelArts
W4A16量化 - AI开发平台ModelArts

数据类型（activation）和kvcache一般使用半精度浮点FP16或BF16。量化指将高比特的浮点转换为更低比特的数据类型的过程。例如int4、int8等。模型量化分为weight-only量化，weight-activation量化和kvcache量化。量化的一般步

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 量化
W4A16量化 - AI开发平台ModelArts
W4A16量化 - AI开发平台ModelArts

数据类型（activation）和kvcache一般使用半精度浮点FP16或BF16。量化指将高比特的浮点转换为更低比特的数据类型的过程。例如int4、int8等。模型量化分为weight-only量化，weight-activation量化和kvcache量化。量化的一般步

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
附录：大模型推理常见问题 - AI开发平台ModelArts

使用benchmark-tools访问推理服务时，输入输出的token和大于max_model_len，服务端返回报错Response payload is not completed，见图2。再次设置输入输出的token和小于max_model_len访问推理服务，服务端响应200，见图3。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8是实验特性，在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见表1。本章节介绍如何在Noteb

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 S

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 S

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
附录：大模型推理常见问题 - AI开发平台ModelArts

使用benchmark-tools访问推理服务时，输入输出的token和大于max_model_len，服务端返回报错Response payload is not completed，见图2。再次设置输入输出的token和小于max_model_len访问推理服务，服务端响应200，见图3。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
管理ModelArts模型版本 - AI开发平台ModelArts

管理ModelArts模型版本为方便溯源和模型反复调优，在ModelArts中提供了模型版本管理的功能，您可以基于版本对模型进行管理。前提条件已在ModelArts中创建模型。创建新版本在“模型”页面，单击操作列的“创建新版本”进入“创建新版本”页面，参数配置除版本外，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 S

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 S

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 S

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
附录：大模型推理常见问题 - AI开发平台ModelArts

使用benchmark-tools访问推理服务时，输入输出的token和大于max_model_len，服务端返回报错Response payload is not completed，见图2。再次设置输入输出的token和小于max_model_len访问推理服务，服务端响应200，见图3。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

00:00(北京时间)正式退市。旧版训练管理如何升级到新版训练？请参考新版训练指导文档（模型训练）来体验新版训练。旧版训练迁移至新版训练需要注意哪些问题？新版训练和旧版训练的差异主要体现在以下3点。新旧版创建训练作业方式差异新旧版训练代码适配的差异新旧版训练预置引擎差异父主题：下线公告

 帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
附录：部署常见问题 - AI开发平台ModelArts

的问题问题：服务退出显存未完全释放解决方法：重启机器。 MindIE和vLLM在深度思考返回接口差异对于DeepSeek-R1这类模型，其返回信息包含深度思考的内容。当前MindIE接口深度思考内容和问题回答都在content字段中，类似“xxx</think>xxx“，

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
更新服务配置 - AI开发平台ModelArts

包括predictor configs结构和transformer configs 服务配置，不设置此参数时，表示不更新。关于configs如何生成，请参见部署在线服务。更新服务配置时，存在以下约束：参数status指定的目标状态不允许和当前服务状态相同。当前服务状态是dep

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
使用AWQ量化工具转换权重 - AI开发平台ModelArts

AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化

总条数： 1820

上一页
1
...
85
86
87
...
91
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

ModelArts Standard训练作业和模型部署如何收费？ - AI开发平台ModelArts

使用TMS标签实现资源分组管理 - AI开发平台ModelArts

如何上传数据至OBS？ - AI开发平台ModelArts

W4A16量化 - AI开发平台ModelArts

W4A16量化 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

管理ModelArts模型版本 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

附录：部署常见问题 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线