搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 kv-cache-int8是实验特性，在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化、per-tensor+per-head静态量化以及per-token，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
管理AI Gallery模型 - AI开发平台ModelArts

管理AI Gallery模型编辑模型介绍资产发布上架后，准确、完整的资产介绍有助于提升资产的排序位置和访问量，能更好的支撑用户使用该资产。在模型详情页，选择“模型介绍”页签，单击右侧“编辑介绍”。编辑模型基础设置和模型描述。表1 模型介绍的参数说明参数名称说明基础设置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
推理性能测试 - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
推理性能测试 - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的预训练和全量微调方案。训练框架使用的是ModelLink。本方案目前仅适用于部分企业客户，完成本方案的部署

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907）
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用SmoothQuant量化工具实现推理量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用SmoothQuant量化工具实现推理量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
Chunked Prefill - AI开发平台ModelArts

Chunked Prefill 什么是Chunked Prefill Chunked Prefill（Splitfuse）特性的目的是将长prompt request分解成更小的块，并在多个forward step中进行调度，只有最后一块的forward完成后才开始这个prompt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化什么是kv-cache-int8量化 kv-cache-int8是实验特性，在部分场景下性能可能会劣于非量化。约束限制当前支持per-token动态量化（推荐）， per-tensor静态量化以及per-tensor+per-head静态量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
LoRA训练 - AI开发平台ModelArts
LoRA训练 - AI开发平台ModelArts

LoRA训练本章节介绍SDXL&SD 1.5模型的LoRA训练过程。LoRA训练是指在已经训练好的模型基础上，使用新的数据集进行LoRA微调以优化模型性能的过程。训练前需要修改数据集路径、模型路径。脚本里写到datasets路径即可。 run_lora_sdxl中的vae路径要准确写到

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
推理性能测试 - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 kv-cache-int8是实验特性，在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化、per-tensor+per-head静态量化以及per-token，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
执行训练任务 - AI开发平台ModelArts

执行训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info.json

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
执行训练任务 - AI开发平台ModelArts

执行训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info.json

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
托管模型到AI Gallery - AI开发平台ModelArts

托管模型到AI Gallery AI Gallery上每个资产的文件都会存储在线上的AI Gallery存储库（简称AI Gallery仓库）里面。每一个模型实例视作一个资产仓库，模型实例与资产仓库之间是一一对应的关系。例如，模型名称为“Test”，则AI Gallery仓库有个名为

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
推理性能测试 - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化，量化方法为per-group。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
Finetune训练 - AI开发平台ModelArts

Finetune训练本章节介绍SDXL&SD 1.5模型的Finetune训练过程。Finetune是指在已经训练好的模型基础上，使用新的数据集进行微调（fine-tuning）以优化模型性能。启动SD1.5 Finetune训练服务使用ma-user用户执行如下命令运行训练脚本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
执行训练任务 - AI开发平台ModelArts

执行训练任务步骤一：上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info.json

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的预训练和全量微调方案。训练框架使用的是ModelLink。本方案目前仅适用于部分企业客户，完成本方案的部署

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）

总条数： 1733

上一页
1
...
75
76
77
...
87
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

管理AI Gallery模型 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

Chunked Prefill - AI开发平台ModelArts

kv-cache-int8量化 - AI开发平台ModelArts

LoRA训练 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

托管模型到AI Gallery - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线