搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

othQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。代码目录如下:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用llm-compressor工具量化 - AI开发平台ModelArts

1、执行权重量化过程中，请保证使用的GPU卡上没有其他进程，否则可能出现OOM； 2、若量化Deepseek-v2-236b模型，大致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

oothQuant(W8A8)量化的模型列表请参见表1。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。代码目录如下:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志 - AI开发平台ModelArts

分推理代码实现自己的推理逻辑，出现故障后希望通过故障日志排查定位故障原因，但是通过logger打印日志无法在“在线服务”的日志中查看到部分内容。原因分析推理服务的日志如果需要显示出来，需要代码中将日志打印到Console控制台。当前推理基础镜像使用的python的log模块，

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
MaaS使用场景和使用流程 - AI开发平台ModelArts

成本。 MaaS提供灵活的模型开发能力，同时基于昇腾云的算力底座能力，提供了若干保障客户商业应用的关键能力。保障客户系统应用大模型的成本效率，按需收费，按需扩缩的灵活成本效益资源配置方案，有效避免了资源闲置与浪费，降低了进入AI领域的门槛。架构强调高可用性，多数据中心部署确保

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
环境准备 - AI开发平台ModelArts
环境准备 - AI开发平台ModelArts

ModelArts开发环境针对推理昇腾迁移的场景提供了云上可以直接访问的开发环境，具有如下优点：利用云服务的资源使用便利性，可以直接使用到不同规格的昇腾设备。通过指定对应的运行镜像，可以直接使用预置的、在迁移过程中所需的工具集，且已经适配到最新的版本可以直接使用。开发者可以通过浏

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
查询数据处理任务版本的结果展示 - AI开发平台ModelArts

process_parameter 否 String 图像缩略设置，同OBS缩略图设置，详见OBS缩略图设置。如：image/resize,m_lfit,h_200表示等比缩放目标缩略图并设置高度为200像素。 result_property 否 String 样本状态，不传或传-1默认返回全部样本。可选值如下：

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询数据集的统计信息 - AI开发平台ModelArts

Pair的key为难例原因出现的次数，Pair的value为难例原因HardDetail。 key_sample_stats Map<String,Integer> 难例统计信息。 label_stats Array of LabelStats objects 标签统计信息列表。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

MindStudio-Insight提供时间线视图、内存、算子耗时、通信瓶颈分析等功能，借助于数据库支持超大性能数据处理，可以支持20GB的集群性能文件分析，并且能够支持大模型场景下的性能调优，相比于Chrometrace、tensorboard等工具提供了更优的功能和性能。更多详细信息，请参

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ - AI开发平台ModelArts

ModelArts提供多版本支持和灵活的流量策略，您可以通过使用灰度发布，实现模型版本的平滑过渡升级。修改服务部署新版本模型或者切换模型版本时，原服务预测API不会变化。调整模型版本的操作可以参考如下的步骤。前提条件已存在部署完成的服务。已完成模型调整，创建模型。操作步骤

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
离线训练安装包准备说明 - AI开发平台ModelArts

离线训练安装包准备说明申请的模型软件包一般依赖连通网络的环境。若用户的机器或资源池无法连通网络，并无法git clone下载代码、安装python依赖包的情况下，用户则需要找到已联网的机器（本章节以Linux系统机器为例）提前下载资源，以实现离线安装。用户可遵循以下步骤操作。步骤一：资源下载

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
训练作业容错检查 - AI开发平台ModelArts

如果您使用专属资源池创建训练作业，容错检查识别的故障节点会被剔除。系统自动补充健康的计算节点至专属资源池。（该功能即将上线）容错检查详细介绍请参考：开启容错检查检测项目与执行条件触发容错环境检测达到的效果环境预检查通过后，如果发生硬件故障会导致用户业务中断。您可以在训练中补充reload ckpt的代码逻

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
给子账号配置查看所有Notebook实例的权限 - AI开发平台ModelArts

户组页面查找待授权的用户组名称，在右侧的操作列单击“授权”，勾选步骤2创建的两条自定义策略，单击“下一步”，选择授权范围方案，单击“确定”。此时，该用户组下的所有用户均有权限查看该用户组内成员创建的所有Notebook实例。如果没有用户组，也可以创建一个新的用户组，并通过“用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
管理标注作业 - AI开发平台ModelArts

在ModelArts数据标注页面可查看用户自己创建的标注作业。登录ModelArts管理控制台，在左侧菜单栏选择“数据准备>数据标注”，进入数据标注页面。在“我创建的”页签，可查看自己创建的标注作业。用户可查看自己创建的标注作业的相关信息。图1 我创建的在“我参与的”页签，可查看参与过标注的标注作业。用户可

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据
使用GPTQ量化 - AI开发平台ModelArts

perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表1。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ (huggingface.co)量化模型权重，然后在NPU的机器上实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ (huggingface.co)量化模型权重，然后在NPU的机器上实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

uant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化

总条数： 1323

上一页
1
...
19
20
21
...
67
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志 - AI开发平台ModelArts

MaaS使用场景和使用流程 - AI开发平台ModelArts

环境准备 - AI开发平台ModelArts

查询数据处理任务版本的结果展示 - AI开发平台ModelArts

查询数据集的统计信息 - AI开发平台ModelArts

MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

给子账号配置查看所有Notebook实例的权限 - AI开发平台ModelArts

管理标注作业 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线