检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
访问在线服务支持的访问通道 通过公网访问通道的方式访问在线服务 通过VPC访问通道的方式访问在线服务 通过VPC高速访问通道的方式访问在线服务 父主题: 将模型部署为实时推理作业
访问在线服务支持的传输协议 使用WebSocket协议的方式访问在线服务 使用Server-Sent Events协议的方式访问在线服务 父主题: 将模型部署为实时推理作业
昇腾云服务6.3.906版本说明 本文档主要介绍昇腾云服务6.3.906版本配套的镜像地址、软件包获取方式和支持的特性能力。
昇腾云服务6.3.907版本说明 本文档主要介绍昇腾云服务6.3.907版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。
昇腾云服务6.3.908版本说明 本文档主要介绍昇腾云服务6.3.908版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。
昇腾云服务6.3.909版本说明 本文档主要介绍昇腾云服务6.3.909版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。
昇腾云服务6.3.912版本说明 本文档主要介绍昇腾云服务6.3.912版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。
昇腾云服务6.3.904版本说明 昇腾云服务6.3.904版本发布支持的软件包和能力说明如下,软件包获取路径:Support-E网站。
昇腾云服务6.3.911版本说明 本文档主要介绍昇腾云服务6.3.911版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。
集成在线服务API至生产环境中应用 针对已完成调测的API,可以将在线服务API集成至生产环境中应用。 前提条件 确保在线服务一直处于“运行中”状态,否则会导致生产环境应用不可用。
通过Token认证的方式访问在线服务 如果在线服务的状态处于“运行中”,则表示在线服务已部署成功,部署成功的在线服务,将为用户提供一个可调用的API,此API为标准Restful API。
昇腾云服务6.3.905版本说明 本文档主要介绍昇腾云服务6.3.905版本配套的镜像地址、软件包获取方式和支持的特性能力。
在模型详情页,选择“部署 > 推理服务”进入部署推理服务页面。 在部署推理服务页面完成参数配置。 表1 部署推理服务 参数 子参数 说明 推理服务设置 服务名称 必填项,自定义一个在线推理服务的名称。 支持1~30个字符。 安全认证 支持“公开”和“AppCode认证”。
此处仅介绍关键参数,更多详细参数解释请参见部署在线服务。 图6 部署在线服务-专属资源池 单击“下一步”,再单击“提交”,开始部署服务,待服务状态显示“正常”服务部署完成。 图7 服务部署完成 Step4 调用在线服务 进入在线服务详情页面,选择“预测”。
操作步骤 VPC访问通道访问在线服务操作步骤如下: 获取ModelArts终端节点服务地址 购买连接ModelArts终端节点 创建DNS内网域名 VPC访问在线服务 提交工单,提供账号ID给华为云技术支持,用于获取ModelArts终端节点服务地址。
如果需要增加模型量化功能,启动推理服务前,先参考推理模型量化章节对模型做量化处理。 启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。
方式一:通过OpenAI服务API接口启动服务 在llm_inference/ascend_vllm/目录下通OpenAI服务API接口启动服务,具体操作命令如下,可以根据参数说明修改配置。
WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就可以建立持久性的连接,并进行双向数据传输。 前提条件 在线服务部署时需选择“升级为WebSocket”。
此处仅介绍关键参数,更多详细参数解释请参见部署在线服务。 图3 部署在线服务-专属资源池 单击“下一步”,再单击“提交”,开始部署服务,待服务状态显示“正常”服务部署完成。 Step4 调用在线服务 进入在线服务详情页面,选择“预测”。
此处仅介绍关键参数,更多详细参数解释请参见部署在线服务。 图6 部署在线服务-专属资源池 单击“下一步”,再单击“提交”,开始部署服务,待服务状态显示“正常”服务部署完成。 图7 服务部署完成 Step4 调用在线服务 进入在线服务详情页面,选择“预测”。