搜索_华为云

推理性能测试 - AI开发平台ModelArts

创建在线服务时，每秒服务流量限制默认为100次，如果静态benchmark的并发数（parallel-num参数）或动态benchmark的请求频率（request-rate参数）较高，会触发推理平台的流控，请在ModelArts Standard“在线服务”详情页修改服务流量限制。同步请

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
推理性能测试 - AI开发平台ModelArts

创建在线服务时，每秒服务流量限制默认为100次，如果静态benchmark的并发数（parallel-num参数）或动态benchmark的请求频率（request-rate参数）较高，会触发推理平台的流控，请在ModelArts Standard“在线服务”详情页修改服务流量限制。同步请

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
迁移过程使用工具概览 - AI开发平台ModelArts

iling采集工具集成到同一个工具中，极大简化了用户的使用流程。建议在迁移过程中使用Tailor工具替代下面列举的原始工具MS Convertor、Benchmark和msprof。使用指导详见AIGC工具tailor使用指导。模型转换工具离线转换模型功能的工具MSLite

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化，量化方法为per-group。 Step1 模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
推理性能测试 - AI开发平台ModelArts

创建在线服务时，每秒服务流量限制默认为100次，如果静态benchmark的并发数（parallel-num参数）或动态benchmark的请求频率（request-rate参数）较高，会触发推理平台的流控，请在ModelArts Standard“在线服务”详情页修改服务流量限制。同步请

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

单击“名称/ID”，进入资源池详情页面，查看网络配置信息。返回专属资源池列表，选择“网络”页签，找到专属资源池关联的网络，打通VPC。打通VPC网络后，网络列表和资源池详情页面将显示VPC名称，单击后可以跳转至VPC详情页面。图2 查看网络配置图3 打通VPC VPC下创建弹性云服务器

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

单击“名称/ID”，进入资源池详情页面，查看网络配置信息。返回专属资源池列表，选择“网络”页签，找到专属资源池关联的网络，打通VPC。打通VPC网络后，网络列表和资源池详情页面将显示VPC名称，单击后可以跳转至VPC详情页面。图2 查看网络配置图3 打通VPC VPC下创建弹性云服务器

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
查询服务详情 - AI开发平台ModelArts

查询服务详情查询当前服务对象的详细信息。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式1：根据部署在线服务生成的服务对象进行服务详情查询 1 2 3 4 5 6 7 from

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用llm-compressor工具量化 - AI开发平台ModelArts

使用llm-compressor工具量化当前版本使用llm-compressor工具量化仅支持Deepseek-v2系列模型的W8A8量化。本章节介绍如何在GPU的机器上使用开源量化工具llm-compressor量化模型权重，然后在NPU的机器上实现推理量化。具体操作如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

Atlas 800训练服务器备件查询助手备件查询助手可以帮助您查询服务器的所有部件、规格描述，数量等详细信息。打开网站后请输入SN编码“2102313LNR10P5100077”，若失效可以提工单至华为云ModelArts查询。 Atlas 800训练服务器的网卡配置问题

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
查询服务更新日志 - AI开发平台ModelArts

查询服务更新日志功能介绍查询实时服务更新日志。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services/{service_id}/logs

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
msprobe API预检 - AI开发平台ModelArts

msprobe是MindStudio Training Tools工具链下精度调试部分的工具包，主要包括精度预检、溢出检测和精度比对等功能，目前适配PyTorch和MindSpore框架。这些子工具侧重不同的训练场景，可以定位模型训练中的精度问题。精度预检工具旨在计算单个API在整网计算中和标杆场景下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
修改模型服务QPS - AI开发平台ModelArts

修改模型服务QPS 流量限制QPS是评估模型服务处理能力的关键指标，它指示系统在高并发场景下每秒能处理的请求量。这一指标直接关系到模型的响应速度和处理效率。不当的QPS配置可能导致用户等待时间延长，影响满意度。因此，能够灵活调整模型的QPS对于保障服务性能、优化用户体验、维持业务流畅及控制成本至关重要。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 管理我的服务
使用Advisor工具分析生成调优建议 - AI开发平台ModelArts

使用Advisor工具分析生成调优建议关于Advisor使用及安装过程请参见昇腾社区Gitee。最后生成导出的各类场景的建议包含以下两种： Terminal日志信息的概览建议。包含Detail信息及修改示例的HTML信息。按照建议信息做如下修改：亲和优化器使能，在train

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优
MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

MindStudio-Insight性能可视化工具使用指导对于高阶的调优用户，可以使用可视化工具MindStudio Insight查看profiling数据详情并分析可优化点，其提供了丰富的调优分析手段，可视化呈现真实软硬件运行数据，多维度分析性能瓶颈点，支持百卡、千卡及以上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ - AI开发平台ModelArts

在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ ModelArts提供多版本支持和灵活的流量策略，您可以通过使用灰度发布，实现模型版本的平滑过渡升级。修改服务部署新版本模型或者切换模型版本时，原服务预测API不会变化。调整模型版本的操作可以参考如下的步骤。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
msprobe精度比对 - AI开发平台ModelArts

debugger.start() # 一般在训练循环开头启动工具。 ... # 循环体 debugger.stop() # 一般在训练循环末尾结束工具。 debugger.step() # 在训练循环的最后需要重置工具，非循环场景不需要。具体的config.json的配置要求请参见介绍。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导

总条数： 1510

上一页
1
2
3
4
5
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

查询服务更新日志 - AI开发平台ModelArts

msprobe API预检 - AI开发平台ModelArts

修改模型服务QPS - AI开发平台ModelArts

使用Advisor工具分析生成调优建议 - AI开发平台ModelArts

MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ - AI开发平台ModelArts

msprobe精度比对 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线