华为云首页用户手册

AI开发平台MODELARTS-分离部署推理服务:什么是分离部署

AI开发平台MODELARTS-分离部署推理服务:什么是分离部署

时间：2024-12-09 20:36:23

AI开发平台MODELARTS

什么是分离部署

大模型推理是自回归的过程，有以下两阶段：

Prefill阶段（全量推理）
将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型。

Decode阶段（增量推理）
将请求的前1个token传入大模型，从显存读取前文产生的KVCache再进行计算，属于访存密集型。

分离部署场景下，全量推理和增量推理在不同的容器上进行，用于提高资源利用效率。

分离部署的实例类型启动分为以下三个阶段：

步骤六启动全量推理实例：必须为NPU实例，用于启动全量推理服务，负责输入的全量推理。全量推理占用至少1个容器。
步骤七启动增量推理实例：必须为NPU实例，用于启动增量推理服务，负责输入的增量推理。增量推理占用至少1个容器。
步骤八启动scheduler实例：可为CPU实例，用于启动api-server服务，负责接收推理请求，向全量或增量推理实例分发请求，收集推理结果并向客户端返回推理结果。服务调度实例不占用显卡资源，建议增加1个容器，也可以在全量推理或增量推理的容器上启动。

上一篇：AI开发平台MODELARTS-分离部署推理服务:步骤四制作推理镜像

下一篇：AI开发平台MODELARTS-非分离部署推理服务:步骤五启动容器镜像

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-分离部署推理服务:什么是分离部署

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题