搜索_华为云

场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。在推理生产环境中部署推理服务介绍如何在创建AI应用，部署并启动推理服务，在线预测在线服务。父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
Standard开发环境 - AI开发平台ModelArts

不同Region支持的AI引擎不一样，请以控制台实际界面为准。亮点特性4：提供在线的交互式开发调试工具JupyterLab ModelArts集成了基于开源的JupyterLab，可为您提供在线的交互式开发调试。您无需关注安装配置，在ModelArts管理控制台直接使用Not

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
计算规格说明 - AI开发平台ModelArts

Gallery工具链服务创建成功且实际开始运行时，才会上报话单并开始计费，其他状态不上报就不计费，各个服务开始计费的状态如下。微调大师：“训练中” AI应用：“运行中” 在线推理服务：“运行中” 计费规则资源整点扣费，按需计费。计费的最小单位为秒，话单上报后的每一小时对用户账号进行一次扣费。如果使用过程中暂停、终止了消耗资源的AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
从AI Gallery订阅模型 - AI开发平台ModelArts

侧展开版本列表，当订阅模型的版本列表的状态显示为“就绪”时表示模型可以使用。图1 进入“我的订阅” 在展开的版本列表中，单击“部署 > 在线服务”跳转至部署页面。图2 部署模型如果您选择部署的是商用模型，则选择服务类型后会弹出“修改配额”窗口，根据需要选择配额后单击“确定”即可跳转至“部署”页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
自定义引擎创建模型规范 - AI开发平台ModelArts

model:/home/mind/model custom_engine:v1 该指令无法完全模拟线上，主要是由于-v挂载进去的目录是root权限。在线上，模型文件从OBS下载到/home/mind/model目录之后，文件owner将统一修改为ma-user。在本地机器上启动另一个终端

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
查询服务更新日志 - AI开发平台ModelArts

String 服务ID。表2 Query参数参数是否必选参数类型描述 update_time 否 Number 待过滤的更新时间，查询在线服务更新日志可使用，可准确过滤出某次更新任务；默认不过滤。请求参数表3 请求Header参数参数是否必选参数类型描述 X-Auth-Token

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
修改批量服务配置 - AI开发平台ModelArts

息进行升级。约束限制服务升级关系着业务实现，不当的升级操作会导致升级期间业务中断的情况，请谨慎操作。 ModelArts支持部分场景下在线服务进行无损滚动升级。按要求进行升级前准备，做好验证，即可实现业务不中断的无损升级。表1 支持无损滚动升级的场景创建模型的元模型来源服务使用的是公共资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Diffusion WebUI如何适配。 AI推理应用运行在昇腾设备上一般有两种方式：方式1：通过Ascend PyTorch，后端执行推理，又称在线推理。方式2：通过模型静态转换后，执行推理，又称离线推理。通常为了获取更好的推理性能，推荐使用方式2的离线推理。下文将以Diffusers

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

若需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。在推理生产环境中部署推理服务介绍如何在创建AI应用，部署并启动推理服务，在线预测在线服务。父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
使用AWQ量化工具转换权重 - AI开发平台ModelArts

Step2 权重格式离线转换（可选） AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

Step2 权重格式离线转换（可选） AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
场景描述 - AI开发平台ModelArts
场景描述 - AI开发平台ModelArts

Tenant Administrator 可选 CES云监控授予子账号使用CES云监控服务的权限。通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况，并设置监控告警。 CES FullAccess 可选 SMN消息服务授予子账号使用SMN消息服务的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
配置Lite Server存储 - AI开发平台ModelArts

如高性能计算、媒体处理、文件共享和内容管理和Web服务等。说明：高性能计算：主要是高带宽的需求，用于共享文件存储，比如基因测序、图片渲染这些。如大数据分析、静态网站托管、在线视频点播、基因测序和智能视频监控等。如高性能计算、企业核心集群应用、企业应用系统和开发测试等。说明：高性能计算：主要是高速率、高IO

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
使用AWQ量化 - AI开发平台ModelArts

步骤二权重格式离线转换（可选）在GPU上AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

Step2 权重格式离线转换（可选）在GPU上AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

步骤二权重格式离线转换（可选）在GPU上AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

如果需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。在推理生产环境中部署推理服务介绍如何在创建AI应用，部署并启动推理服务，在线预测在线服务。父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
不允许子账号使用公共资源池创建作业 - AI开发平台ModelArts

Notebook”，单击“创建”，在创建Notebook页面，资源池规格只能选择专属资源池。使用子账号用户登录ModelArts控制台，选择“模型部署 > 在线服务”，单击“部署”，在部署服务页面，资源池规格只能选择专属资源池。父主题：典型场景配置实践

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
Msprobe API预检 - AI开发平台ModelArts

cision_compare_details_{timestamp}.csv文件的API详细达标情况。详细工具的使用指导请参考离线预检和在线预检介绍。父主题： Msprobe工具使用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优 > Msprobe工具使用指导
使用AWQ量化工具转换权重 - AI开发平台ModelArts

Step2 权重格式离线转换（可选） AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化

总条数： 512

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

场景介绍 - AI开发平台ModelArts

Standard开发环境 - AI开发平台ModelArts

计算规格说明 - AI开发平台ModelArts

从AI Gallery订阅模型 - AI开发平台ModelArts

自定义引擎创建模型规范 - AI开发平台ModelArts

查询服务更新日志 - AI开发平台ModelArts

修改批量服务配置 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

场景描述 - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

不允许子账号使用公共资源池创建作业 - AI开发平台ModelArts

Msprobe API预检 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线