AI开发平台MODELARTS-分离部署推理服务:什么是分离部署

时间:2024-12-17 18:06:51

什么是分离部署

大模型推理是自回归的过程,有以下两阶段:

  • Prefill阶段(全量推理)

    将用户请求的prompt传入大模型,进行计算,中间结果写入KVCache并推出第1个token,属于计算密集型。

  • Decode阶段(增量推理)

    将请求的前1个token传入大模型,从显存读取前文产生的KVCache再进行计算,属于访存密集型。

分离部署场景下,全量推理和增量推理在不同的容器上进行,用于提高资源利用效率。

分离部署的实例类型启动分为以下三个阶段:
  1. 步骤六 启动全量推理实例:必须为NPU实例,用于启动全量推理服务,负责输入的全量推理。全量推理占用至少1个容器。
  2. 步骤七 启动增量推理实例:必须为NPU实例,用于启动增量推理服务,负责输入的增量推理。增量推理占用至少1个容器。
  3. 步骤八 启动scheduler实例:可为CPU实例,用于启动api-server服务,负责接收推理请求,向全量或增量推理实例分发请求,收集推理结果并向客户端返回推理结果。服务调度实例不占用显卡资源,建议增加1个容器,也可以在全量推理或增量推理的容器上启动。
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_91104.html