华为云计算 云知识 离线模型推理流程介绍
离线模型推理流程介绍

离线模型加载完成后,就可以实现模型的推理功能。在离线模型的生成和加载过程中,都没有使用具体的待处理数据,仅仅是通过软件栈对模型中算子和计算流程实现了一种构造、编排、优化、封装以及硬件适配操作。而在具体的推理执行过程中,才会读入具体的输入数据来驱动完成执行并输出结果。

离线模型推理流程如图所示:

离线模型推理流程图

1、应用程序对需要处理的数据产生需求时,准备好待处理的数据,流程编排器将调用模型管家的处理接口将数据灌入离线模型执行器中。

2、接着离线模型执行器调用运行管理器的执行流(rtModelExecute)接口,将执行流中多个推理任务下发到任务调度器中。

3、任务调度器将任务再拆分成任务块,下发到AI Core或AI CPU上进行执行,完成后将任务块结果返回给任务调度器。

4、任务调度器遍历执行流中的任务,循环发射任务块并返回执行结果直至所有任务全部完成后,将任务结果返回并存入运行管理器的内存中。

5、在完成多执行流的任务计算时,需要通过运行管理器中的事件记录和事件等待接口进行多执行流间的算子同步,有序完成算子的计算。

6、在一个执行流中所有算子调用完成后,离线模型执行器通过运行管理器的执行流同步(rtStreamSychronize)接口来同步等待所有执行流的执行完成。

7、在所有相关执行流任务完成后,整合所有结果生成模型的最终结果,此时离线模型执行器则会通知AI模型管家执行流已经完成执行。

8、最后模型管家会调用预设的输出回调函数,将整个离线模型推理执行的结果返回到流程编排器,由流程编排器反馈给应用程序。


上一篇:协同办公是什么意思 下一篇:Rest API的认证规则

基于PyTorch NPU快速部署开源大模型

基于PyTorch NPU快速部署开源大模型