搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
Finetune训练 - AI开发平台ModelArts

Finetune训练本章节介绍SDXL&SD 1.5模型的Finetune训练过程。Finetune是指在已经训练好的模型基础上，使用新的数据集进行微调（fine-tuning）以优化模型性能。启动SD1.5 Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）
使用AWQ量化工具转换权重 - AI开发平台ModelArts

per-channel Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获取FP16/BF16的模型权重之后，通过autoAWQ工具进行量化。方式一：从开源社区下载发布的AWQ量化模型。 https://huggingface.co/models?so

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

uant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

uant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

uant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
模型管理 - AI开发平台ModelArts
模型管理 - AI开发平台ModelArts

创建模型失败，如何定位和处理问题？导入模型提示该账号受限或者没有操作权限用户创建模型时构建镜像或导入文件失败创建模型时，OBS文件目录对应镜像里面的目录结构是什么样的？通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志通过OBS创建模型时，构建日志中提示pip下载包失败

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署
使用SmoothQuant量化 - AI开发平台ModelArts

--generate-scale：体现此参数表示会生成量化系数，生成后的系数保存在--scale-output参数指定的路径下。如果有指定的量化系数，则不需此参数，直接读取--scale-input参数指定的量化系数输入路径即可。 --dataset-path：数据集路径，推荐使

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

--generate-scale：体现此参数表示会生成量化系数，生成后的系数保存在--scale-output参数指定的路径下。如果有指定的量化系数，则不需此参数，直接读取--scale-input参数指定的量化系数输入路径即可。 --dataset-path：数据集路径，推荐使

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
将AI Gallery中的模型部署为AI应用 - AI开发平台ModelArts

自定义一个易于分辨的AI应用中文名称。字符长度在1到30之间。许可证否选择AI应用遵循的许可证。计算规格选择是按需选择计算规格。单击“选择”，在弹窗中选择资源规格并设置运行时长控制，单击“确定”。在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。选择

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
multi-step - AI开发平台ModelArts
multi-step - AI开发平台ModelArts

multi-step 什么是multi-step vLLM的调度和输入准备的CPU开销可能会导致NPU利用率不足，开启multi-step调度可以有效解决这个问题，开启multi-step调度后会在执行一次调度和输入准备后，连续n步运行模型。通过NPU在n步之间连续处理，而无需等

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
使用llm-compressor工具量化 - AI开发平台ModelArts

1、执行权重量化过程中，请保证使用的GPU卡上没有其他进程，否则可能出现OOM； 2、若量化Deepseek-v2-236b模型，大致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
准备Notebook - AI开发平台ModelArts

Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS Turbo，并对存储在SFS Turbo中的数据执行编辑操作。创建Notebook 创建开发环境Notebook实例，具体操作步骤请参考创建Notebook实例。镜像选择已注册的自定义镜像，资源类型选择创建好的专属资源池，规格推荐选择“Ascend:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。抽取kv-cache量化系数。该步骤的目的是将步骤1中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 e

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
API/SDK - AI开发平台ModelArts
API/SDK - AI开发平台ModelArts

SDK、OBS SDK和MoXing的区别是什么？ ModelArts的API或SDK支持模型下载到本地吗？ ModelArts通过OBS的API访问OBS中的文件，属于内网还是公网访问？调用ModelArts API接口创建训练作业和部署服务时，如何填写资源池的参数？

帮助中心 > AI开发平台ModelArts > 常见问题
创建并管理工作空间 - AI开发平台ModelArts

在ModelArts管理控制台的左侧导航栏中，选择“工作空间”进入工作空间列表。在工作空间列表，单击操作列的“配额管理”进入工作空间详情页。在配额信息页面可以查看工作空间设置的配额值、已用的配额、最后修改时间等配额信息。单击配额信息右侧的“修改配额”可以修改配额值。配置值的配置说明请参见表2。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
AI Gallery使用流程 - AI开发平台ModelArts

等AI数字资产的共享，为高校科研机构、AI应用开发商、解决方案集成商、企业级/个人开发者等群体，提供安全、开放的共享及交易环节，加速AI资产的开发与落地，保障AI开发生态链上各参与方高效地实现各自的商业价值。使用流程本节主要介绍在AI Gallery中管理资产的整体流程。在AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
数据集版本发布失败 - AI开发平台ModelArts

出现此问题时，表示数据不满足数据管理模块的要求，导致数据集发布失败，无法执行自动学习的下一步流程。请根据如下几个要求，检查您的数据，将不符合要求的数据排除后再重新启动自动学习的训练任务。 ModelArts.4710 OBS权限问题 ModelArts在跟OBS交互时，由于权限相关的问题导致。当界面提示“OBS

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据

总条数： 1378

上一页
1
...
60
61
62
...
69
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

模型管理 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

将AI Gallery中的模型部署为AI应用 - AI开发平台ModelArts

multi-step - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

API/SDK - AI开发平台ModelArts

创建并管理工作空间 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

AI Gallery使用流程 - AI开发平台ModelArts

数据集版本发布失败 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线