搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。 per-tensor+per-head静态量化场景如需使用该场景量化方法，请自行准备kv-cache量化系数，格式和per-tensor静态量化所需的2.

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
启动推理服务 - AI开发平台ModelArts

能，设置该参数后将关闭图模式。CANNGraph图模式目前支持llama和qwen2系列大语言模型单卡场景，包含该系列AWQ量化模型，其他场景(如Multi-lora)暂未支持。小模型如Qwen2-1.5B和Qwen2-0.5B推荐不设置该参数。 --disable-async-

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理服务部署
主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

在推理生产环境中部署推理服务推理精度测试推理性能测试推理模型量化 Eagle投机小模型训练附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

\"bow\", \"crossbow\"], \"type\": \"string\"}}}" }' Step5 推理性能和精度测试推理性能和精度测试操作请参见推理性能测试和推理精度测试。父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
AI Gallery功能介绍 - AI开发平台ModelArts

昇腾云开源大模型，沉淀最佳的算力组合方案，为开发者在开发模型的最后一步，提供最佳实践的算力方案、实践指南和文档，节省开发者学习和试错资金成本，提升学习和开发效率。父主题：功能介绍

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

\"bow\", \"crossbow\"], \"type\": \"string\"}}}" }' Step5 推理性能和精度测试推理性能和精度测试操作请参见推理性能测试和推理精度测试。附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明基于vLLM（v0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
multi-step - AI开发平台ModelArts
multi-step - AI开发平台ModelArts

multi-step 什么是multi-step vLLM的调度和输入准备的CPU开销可能会导致NPU利用率不足，开启multi-step调度可以有效解决这个问题，开启multi-step调度后会在执行一次调度和输入准备后，连续n步运行模型。通过NPU在n步之间连续处理，而无需等

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
图模式 - AI开发平台ModelArts
图模式 - AI开发平台ModelArts

设置该参数为True将关闭CANNGraph图模式，小模型如Qwen2-1.5B和Qwen2-0.5B推荐不设置该参数。 online --enforce-eager 设置该参数将关闭CANNGraph图模式，小模型如Qwen2-1.5B和Qwen2-0.5B推荐不设置该参数。父主题：推理关键特性使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用
数据管理计费项 - AI开发平台ModelArts

对象存储OBS 用于存储训练和推理的输入数据和输出结果数据。具体费用可参见对象存储价格详情。注意：存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除，则会按照OBS的计费规则进行持续计费。按需计费包年/包月创建桶不收取费用，按实际使用的存储容量和时长收费计费示例以

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
使用kv-cache-int8量化 - AI开发平台ModelArts

量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用tensorRT量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的训练推理代码和如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表1 支持的模型列表所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
推理性能测试 - AI开发平台ModelArts

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景能模拟实际业务下动态的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
通过自定义镜像创建模型失败 - AI开发平台ModelArts

镜像地址是否和实际地址一致，大小写，拼写等是否一致。检查用户给ModelArts的委托中是否有SWR的权限，可以在权限管理中查看对应用户的授权内容，查看授权详情。如果没有对应权限，需要到统一身份认证服务给对应委托中加上对应权限。图1 权限管理图2 查看权限详情和去IAM修改委托权限

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ - AI开发平台ModelArts

登录ModelArts控制台，左侧菜单选择“模型管理”；单击“创建”，进入创建模型界面，元模型选择“从容器镜像中选择”，选择自定义镜像；配置“容器调用接口”和端口号，端口号与模型配置文件中的端口保持一致；设置完成后，单击“立即创建”，等待模型状态变为“正常”；重新部署在线服务。父主题： Standard推理部署

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
查询处理任务列表 - AI开发平台ModelArts

查询处理任务列表功能介绍查询处理任务列表，包括“特征分析”任务和“数据处理”两大类任务。可通过指定“task_type”参数来单独查询某类任务的列表。 “特征分析”是指基于图片或目标框对图片的各项特征，如模糊度、亮度进行分析，并绘制可视化曲线，帮助处理数据集。 “数据处理”是

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
更新算法 - AI开发平台ModelArts
更新算法 - AI开发平台ModelArts

是 String 算法名称。限制为1-64位只含数字、字母、下划线和中划线的名称。 description 否 String 对算法的描述，默认为“NULL”，字符串的长度限制为[0, 256]。 workspace_id 否 String 指定算法所处的工作空间，默认值为“0”。“0”

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

图6 查看预测结果本案例中数据和算法生成的模型仅适用于教学模式，并不能应对复杂的预测场景。即生成的模型对预测图片有一定范围和要求，预测图片必须和训练数据集中的图片相似才可能预测准确。 ModelArts的AI Gallery中提供了常见的精度较高的算法和相应的训练数据集，用户可以在AI

帮助中心 > AI开发平台ModelArts > 快速入门
使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

图6 查看预测结果本案例中数据和算法生成的模型仅适用于教学模式，并不能应对复杂的预测场景。即生成的模型对预测图片有一定范围和要求，预测图片必须和训练数据集中的图片相似才可能预测准确。 ModelArts的AI Gallery中提供了常见的精度较高的算法和相应的训练数据集，用户可以在AI

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
推理性能测试 - AI开发平台ModelArts

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景能模拟实际业务下动态的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
Ascend-vLLM推理常见问题 - AI开发平台ModelArts

使用benchmark-tools访问推理服务时，输入输出的token和大于max_model_len，服务端返回报错Response payload is not completed，见图2。再次设置输入输出的token和小于max_model_len访问推理服务，服务端响应200，见图3。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 附录

总条数： 1425

上一页
1
...
53
54
55
...
72
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

AI Gallery功能介绍 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

multi-step - AI开发平台ModelArts

图模式 - AI开发平台ModelArts

数据管理计费项 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

通过自定义镜像创建模型失败 - AI开发平台ModelArts

在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ - AI开发平台ModelArts

查询处理任务列表 - AI开发平台ModelArts

更新算法 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

Ascend-vLLM推理常见问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线