搜索_华为云

部署推理服务 - AI开发平台ModelArts

部署推理服务本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。前提条件已准备好Lite k8s Cluster环境，具体参考准备环境。推荐使用“西南-贵阳一”Region上的Cluster和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保集群可以访问公网。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
部署推理服务 - AI开发平台ModelArts

部署推理服务本章节介绍如何使用vLLM 0.6.3框架部署并启动推理服务。前提条件已准备好Lite k8s Cluster环境，具体参考准备环境。推荐使用“西南-贵阳一”Region上的Cluster和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保集群可以访问公网。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
部署推理服务 - AI开发平台ModelArts

部署推理服务本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。前提条件已准备好Lite k8s Cluster环境，具体参考准备环境。推荐使用“西南-贵阳一”Region上的Cluster和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保集群可以访问公网。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

示为“就绪”时表示模型可以使用。步骤3：使用订阅模型部署在线服务模型订阅成功后，可将此模型部署为在线服务在展开的版本列表中，单击“部署 > 在线服务”跳转至部署页面。在部署页面，参考如下说明填写关键参数。 “名称”：自定义一个在线服务的名称，也可以使用默认值，此处以“商超商品识别服务”为例。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

Server-Sent Events（SSE）是一种服务器向客户端推送数据的技术，它是一种基于HTTP的推送技术，服务器可以向客户端推送事件。这种技术通常用于实现服务器向客户端推送实时数据，例如聊天应用、实时新闻更新等。 SSE主要解决了客户端与服务器之间的单向实时通信需求（例如ChatGP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
ModelArts在线服务和批量服务有什么区别？ - AI开发平台ModelArts

在线服务将模型部署为一个Web服务，您可以通过管理控制台或者API接口访问在线服务。批量服务批量服务可对批量数据进行推理，完成数据处理后自动停止。批量服务一次性推理批量数据，处理完服务结束。在线服务提供API接口，供用户调用推理。父主题： Standard推理部署

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
部署上线失败 - AI开发平台ModelArts

部署上线失败出现此问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新部署在线服务。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取服务ID。进入“部署上线>在线服务”页面，在服务列表中找到自动学习任务中部署的在线服务，自动学习部署的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 部署上线
部署预测分析服务 - AI开发平台ModelArts

部署预测分析服务模型部署模型部署操作即将模型部署为在线服务，并且提供在线的测试UI与监控能力。完成模型训练后，可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。在“运行节点”页面中，待训练状态变为“等待输入”，双击“服务部署”节点，完成相关参数配置。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

VPC下创建弹性云服务器登录弹性云服务器ECS控制台，单击右上角“购买弹性云服务器”，进入购买弹性云服务器页面，完成基本配置后单击“下一步：网络配置”，进入网络配置页面，选择1中打通的VPC，完成其他参数配置，完成高级配置并确认配置，下发购买弹性云服务器的任务。等待服务器的状态变为

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
内存不足如何处理？ - AI开发平台ModelArts

内存不足如何处理？问题现象在部署或升级在线服务时，如果部署或升级失败，并且在事件中出现如下类似提示。图1 内存不足提示样例1 运行中服务出现告警时，在事件中出现建议：内存不足，请增加内存。图2 内存不足提示样例2 原因分析部署或升级时出现该提示，可能原因是选择的计算节点

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
推理部署使用场景 - AI开发平台ModelArts

推理部署使用场景 AI模型开发完成后，在ModelArts服务中可以将AI模型创建为模型，将模型快速部署为推理服务，您可以通过调用API的方式把AI推理能力集成到自己的IT平台，或者批量生成推理结果。图1 推理简介训练模型：可以在ModelArts服务中进行，也可以在您的本地

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

SDK不支持进行训练作业调测、模型调试和在开发环境中部署本地服务进行调试，当前仅支持在开发环境Notebook中调试。本地安装ModelArts SDK步骤在本地安装ModelArts SDK，具体的配置步骤如下：步骤一：下载ModelArts SDK 步骤二：配置运行环境步骤三：安装ModelArts SDK

帮助中心 > AI开发平台ModelArts > SDK参考
在Linux上安装配置Grafana - AI开发平台ModelArts

在Linux上安装配置Grafana 适用场景本章节适用于在Linux操作系统的PC中安装配置Grafana。前提条件一台可访问外网的Ubuntu服务器。如果没有请具备以下条件：准备一台ECS服务器（建议规格选8U或者以上，镜像选择Ubuntu，建议选择22.04版本，本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
Standard推理部署 - AI开发平台ModelArts

Standard推理部署 ModelArts Standard推理服务访问公网方案端到端运维ModelArts Standard推理服务方案使用自定义引擎在ModelArts Standard创建模型使用大模型在ModelArts Standard创建模型部署在线服务第三方推理框架迁移到ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践
在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ - AI开发平台ModelArts

前提条件已存在部署完成的服务。已完成模型调整，创建模型。操作步骤登录ModelArts管理控制台，在左侧导航栏中选择“部署上线 > 在线服务”，默认进入“在线服务”列表。在部署完成的目标服务中，单击操作列的“修改”，进入“修改服务”页面。在选择模型及配置中，单击“增加模型版本进行灰度发布”添加新版本。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。什么是非分离部署全量推理和增量推理在同一节点上进行。前提条件已准备好Server环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。安装过程需要连接互联网git

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
配置Lite Cluster网络 - AI开发平台ModelArts

配置Lite Cluster网络本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档，您可以实现弹性云服务器访问公网的目的。使用华为云账号登录CCE管理控制台。找到购买Cluster资源时选择的CCE集群，单击名称进入CCE集群详情页面，单击“节点管理”页签，在“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
调用MaaS部署的模型服务 - AI开发平台ModelArts

调用MaaS部署的模型服务在ModelArts Studio大模型即服务平台部署成功的模型服务支持在其他业务环境中调用。约束限制只有“状态”是“运行中”的模型服务才支持被调用。步骤一：获取API Key 在调用MaaS部署的模型服务时，需要填写API Key用于接口的鉴权认证。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
将模型部署为批量推理服务 - AI开发平台ModelArts

N文件时，则需要根据配置文件生成映射文件；如果模型输入为文件时，则不需要。操作步骤登录ModelArts管理控制台，在左侧导航栏中选择“模型部署 > 批量服务”，默认进入“批量服务”列表。在批量服务列表中，单击左上角“部署”，进入“部署”页面。在部署页面，填写批量服务相关参数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务本章节介绍如何使用vLLM 0.5.0框架部署并启动推理服务。什么是非分离部署全量推理和增量推理在同一节点上进行。前提条件已准备好Server环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。安装过程需要连接互联网git

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务

总条数： 2068

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

ModelArts在线服务和批量服务有什么区别？ - AI开发平台ModelArts

部署上线失败 - AI开发平台ModelArts

部署预测分析服务 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

推理部署使用场景 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

Standard推理部署 - AI开发平台ModelArts

在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

配置Lite Cluster网络 - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

将模型部署为批量推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线