搜索_华为云

使用llm-compressor工具量化 - AI开发平台ModelArts

使用llm-compressor工具量化当前版本使用llm-compressor工具量化仅支持Deepseek-v2系列模型的W8A8量化。本章节介绍如何在GPU的机器上使用开源量化工具llm-compressor量化模型权重，然后在NPU的机器上实现推理量化。具体操作如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。代码目录如下: AutoSmoothQuant #量化工具 ├── asc

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用Advisor工具分析生成调优建议 - AI开发平台ModelArts

使用Advisor工具分析生成调优建议关于Advisor使用及安装过程请参见昇腾社区Gitee。最后生成导出的各类场景的建议包含以下两种： Terminal日志信息的概览建议。包含Detail信息及修改示例的HTML信息。按照建议信息做如下修改：亲和优化器使能，在train

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优
修改工作空间 - AI开发平台ModelArts

修改工作空间功能介绍修改工作空间。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI PUT /v1/{project_id}/workspaces/{workspace_id}

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
调用API创建训练作业，训练作业异常 - AI开发平台ModelArts

调用API创建训练作业，训练作业异常问题现象调用API接口创建训练作业（专属资源池为CPU规格），训练作业状态由“创建中”转变为“异常”，训练作业详情界面“规格信息”为“--”。原因分析调用接口传入了CPU规格的专属资源池不支持的参数。处理步骤检查API请求的请求体中

 帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
使用AWQ量化工具转换权重 - AI开发平台ModelArts

过autoAWQ工具进行量化。方式一：从开源社区下载发布的AWQ量化模型。 https://huggingface.co/models?sort=trending&search=QWEN+AWQ 方式二：使用AutoAWQ量化工具进行量化。 1、使用该量化工具，需要切换conda环境。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化，量化方法为per-group。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
录制Profiling - AI开发平台ModelArts

开发的性能数据采集和解析工具，通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。 Ascend PyTorch Profiler接口可全面采集PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
获取用户绑定APP的api列表 - AI开发平台ModelArts

参数类型描述 api_id String API编号。 api_method String 请求方式包含GET、POST、PUT、DELETE、HEAD、PATCH、OPTIONS、ANY，固定返回ANY。 api_name String API名称。 api_remark String

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
身份认证与访问控制 - AI开发平台ModelArts

rts控制台、API、SDK，无论访问方式封装成何种形式，其本质都是通过ModelArts提供的REST风格的API接口进行请求。 ModelArts的接口均需要进行认证鉴权以此来判断是否通过身份认证。通过控制台发出的请求需要通过Token认证鉴权，调用API接口认证鉴权支持Token认证和AK/SK认证两种方式。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表1。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用llm-compressor工具量化 - AI开发平台ModelArts

使用llm-compressor工具量化当前版本使用llm-compressor工具量化仅支持Deepseek-v2系列模型的W8A8量化。本章节介绍如何在GPU的机器上使用开源量化工具llm-compressor量化模型权重，然后在NPU的机器上实现推理量化。具体操作如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

MindStudio-Insight性能可视化工具使用指导对于高阶的调优用户，可以使用可视化工具MindStudio Insight查看profiling数据详情并分析可优化点，其提供了丰富的调优分析手段，可视化呈现真实软硬件运行数据，多维度分析性能瓶颈点，支持百卡、千卡及以上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
录制Profiling - AI开发平台ModelArts

开发的性能数据采集和解析工具，通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。 Ascend PyTorch Profiler接口可全面采集PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
录制Profiling - AI开发平台ModelArts

开发的性能数据采集和解析工具，通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。 Ascend PyTorch Profiler接口可全面采集PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
MA-Advisor性能调优建议工具使用指导 - AI开发平台ModelArts

MA-Advisor性能调优建议工具使用指导 MA-Advisor是一款迁移性能问题自动诊断工具，其集成了昇腾自动诊断工具msprof-analyze，并在ModelArts Standard的Jupyter lab平台进行了插件化，能快速分析和诊断昇腾场景下PyTorch性能劣化问题并给出相关调优建议。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
mox.file与本地接口的对应关系和切换 - AI开发平台ModelArts

gfile：指MoXing文件操作接口一一对应的TensorFlow相同功能的接口，在MoXing中，无法自动将文件操作接口自动切换为TensorFlow的接口，下表呈现内容仅表示功能类似，帮助您更快速地了解MoXing文件操作接口的功能。表1 API对应关系 Python（本地文件操作接口） mox

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
录制Profiling - AI开发平台ModelArts

开发的性能数据采集和解析工具，通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。 Ascend PyTorch Profiler接口可全面采集PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明

总条数： 1631

上一页
1
2
3
4
5
...
82
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用llm-compressor工具量化 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用Advisor工具分析生成调优建议 - AI开发平台ModelArts

修改工作空间 - AI开发平台ModelArts

调用API创建训练作业，训练作业异常 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

获取用户绑定APP的api列表 - AI开发平台ModelArts

身份认证与访问控制 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

MA-Advisor性能调优建议工具使用指导 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

mox.file与本地接口的对应关系和切换 - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线