AI开发平台MODELARTS-实时推理的部署及使用流程

时间:2024-11-21 19:46:04

实时推理的部署及使用流程

在创建完模型后,可以将模型部署为一个在线服务。当在线服务的状态处于“运行中”,则表示在线服务已部署成功,部署成功的在线服务,将为用户提供一个可调用的API,此API为标准Restful API。访问在线服务时,您可以根据您的业务需求,分别确认使用何种认证方式、访问通道、传输协议,以上三个要素共同构成您的访问请求,三者可自由组合互不影响(例如不同的认证方式可以搭配不同的访问通道、不同的传输协议)。

图1 认证方式、访问通道、传输协议

当前ModelArts支持访问在线服务的认证方式有以下方式(案例中均以HTTPS请求为例):

  • Token认证:Token具有时效性,有效期为24小时,需要使用同一个Token鉴权时,可以缓存起来,避免频繁调用。
  • AK/SK认证:使用AK/SK对请求进行签名,在请求时将签名信息添加到消息头,从而通过身份认证。AK/SK签名认证方式仅支持消息体大小12M以内,12M以上的请求请使用Token认证。
  • APP认证:在请求头部消息增加一个参数即可完成认证,认证方式简单,永久有效。

ModelArts支持通过以下几种方式调用API访问在线服务(案例中均以HTTPS请求为例):

在线服务的API默认为HTTPS访问,同时还支持以下的传输协议:

  • 使用WebSocket协议的方式访问在线服务:WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就可以建立持久性的连接,并进行双向数据传输。
  • 使用Server-Sent Events协议的方式访问在线服务:Server-Sent Events访问主要解决了客户端与服务器之间的单向实时通信需求(例如ChatGPT回答的流式输出),相较于WebSocket(双向实时),它更加轻量级且易于实现。
support.huaweicloud.com/usermanual-standard-modelarts/inference-modelarts-0097.html