搜索_华为云

使用AWQ量化 - AI开发平台ModelArts

o_awq.html。步骤二权重格式离线转换（可选）在GPU上AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

模型，加载模型，执行预处理，完成推理，拼装响应体等。操作步骤 WebSocket在线服务开发操作步骤如下：上传镜像至容器镜像服务使用镜像创建模型使用模型部署在线服务 WebSocket在线服务调用上传镜像至容器镜像服务将准备好的本地镜像上传到容器镜像服务（SWR）。使用镜像创建模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
使用AWQ量化 - AI开发平台ModelArts

o_awq.html。步骤二权重格式离线转换（可选）在GPU上AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

o_awq.html。步骤二权重格式离线转换（可选）在GPU上AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
msprobe精度比对 - AI开发平台ModelArts

debugger.start() # 一般在训练循环开头启动工具。 ... # 循环体 debugger.stop() # 一般在训练循环末尾结束工具。 debugger.step() # 在训练循环的最后需要重置工具，非循环场景不需要。具体的config.json的配置要求请参见介绍。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

境一键式准备好迁移、调测需要的运行环境与工具链。模型适配：针对昇腾迁移模型必要的转换和改造。模型准备，导出和保存确定格式的模型。转换参数准备，准备模型业务相关的关键参数。模型转换，包含模型转换、优化和量化等。应用集成。针对转换的模型运行时应用层适配。数据预处理。模型编排。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
查看在线服务的事件 - AI开发平台ModelArts

查看操作在ModelArts管理控制台的左侧导航栏中选择“模型部署 > 在线服务”，在服务列表中，您可以单击名称/ID，进入服务详情页面。在服务详情页面，切换到“事件”页签，查看事件信息。父主题：管理同步在线服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

MindStudio-Insight性能可视化工具使用指导对于高阶的调优用户，可以使用可视化工具MindStudio Insight查看profiling数据详情并分析可优化点，其提供了丰富的调优分析手段，可视化呈现真实软硬件运行数据，多维度分析性能瓶颈点，支持百卡、千卡及以上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
MA-Advisor性能调优建议工具使用指导 - AI开发平台ModelArts

MA-Advisor性能调优建议工具使用指导 MA-Advisor是一款迁移性能问题自动诊断工具，其集成了昇腾自动诊断工具msprof-analyze，并在ModelArts Standard的Jupyter lab平台进行了插件化，能快速分析和诊断昇腾场景下PyTorch性能劣化问题并给出相关调优建议。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
管理在线服务生命周期 - AI开发平台ModelArts

以通过如下方式重启在线服务：登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署>在线服务”，进入在线服务列表页面。您可以单击“操作”列的“更多>重启”，重启服务。登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署>在线服务”，进入在线服务列表页面。单击

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

AOE自动调优更多介绍可参考Ascend转换工具功能说明。自动高性能算子生成工具自动高性能算子生成工具AKG（Auto Kernel Generator），可以对深度神经网络模型中的算子进行优化，并提供特定模式下的算子自动融合功能，可提升在昇腾硬件后端上运行模型的性能。 AKG的配置也是在模型转换阶段进行配

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
部署模型为在线服务 - AI开发平台ModelArts

部署模型为在线服务模型准备完成后，您可以将模型部署为在线服务，对在线服务进行预测和调用。约束与限制单个用户最多可创建20个在线服务。前提条件数据已完成准备：已在ModelArts中创建状态“正常”可用的模型。由于在线运行需消耗资源，确保账户未欠费。部署服务操作需要镜

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

已在云监控页面设置告警规则，具体操作请参见设置告警规则。在线服务已正常运行一段时间（约10分钟）。对于新创建的在线服务，需要等待一段时间，才能查看上报的监控数据和监控视图。故障、删除状态的在线服务，无法在云监控中查看其监控指标。当在线服务再次启动或恢复后，即可正常查看。对接云监控之前，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
在线服务鉴权 - AI开发平台ModelArts

在线服务鉴权功能介绍计费工作流在线服务鉴权。接口约束无调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/workflows/service/auth

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
使用AWQ量化 - AI开发平台ModelArts

Step2 权重格式转换 AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，需要进行权重转换。进入llm_tools/AutoAWQ代码目录下执行以下脚本：执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式，请在转换前备份。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
单模型性能调优AOE - AI开发平台ModelArts

单模型性能调优AOE 使用AOE工具可以在模型转换阶段对于模型运行和后端编译过程进行执行调优。请注意AOE只适合静态shape的模型调优。在AOE调优时，容易受当前缓存的一些影响，建议分两次进行操作，以达到较好的优化效果（第一次执行生成AOE的知识库，在第二次使用时可以复用）。在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
ModelArts在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

ModelArts在线服务预测时，如何提高预测速度？部署在线服务时，您可以选择性能更好的“实例规格”提高预测速度。例如使用GPU资源代替CPU资源。部署在线服务时，您可以增加“实例数”。如果实例数设置为1，表示后台的计算模式是单机模式；如果实例数设置大于1，表示后台的计算模

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
管理同步在线服务 - AI开发平台ModelArts

管理同步在线服务查看在线服务详情查看在线服务的事件管理在线服务生命周期修改在线服务配置在云监控平台查看在线服务性能指标集成在线服务API至生产环境中应用设置在线服务故障自动重启父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
使用AWQ量化 - AI开发平台ModelArts

Step2 权重格式转换 AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，需要进行权重转换。进入llm_tools代码目录下执行以下脚本：执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式，请在转换前备份。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化

总条数： 1053

上一页
1
...
4
5
6
...
53
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AWQ量化 - AI开发平台ModelArts

ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

msprobe精度比对 - AI开发平台ModelArts

简介 - AI开发平台ModelArts

查看在线服务的事件 - AI开发平台ModelArts

MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

MA-Advisor性能调优建议工具使用指导 - AI开发平台ModelArts

管理在线服务生命周期 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

在线服务鉴权 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

单模型性能调优AOE - AI开发平台ModelArts

ModelArts在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

管理同步在线服务 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线