搜索_华为云

使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

Events协议的方式访问在线服务背景说明 Server-Sent Events（SSE）是一种服务器向客户端推送数据的技术，它是一种基于HTTP的推送技术，服务器可以向客户端推送事件。这种技术通常用于实现服务器向客户端推送实时数据，例如聊天应用、实时新闻更新等。 SSE主要解决了客户端与服务器之间的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

否 Array of Schedule objects 服务调度配置，仅在线服务可配置，默认不使用，服务长期运行。 cluster_id 否 String 可选，部署服务时使用的资源池ID。对于rel-time和batch服务类型，为旧版专属资源池ID，配置此参数后，则使用集群的网

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
查询服务详情 - AI开发平台ModelArts

service_id String 服务ID。 service_name String 服务名称。 description String 服务描述。 tenant String 服务归属租户。 project String 服务归属项目。 owner String 服务归属用户。 publish_at

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
部署在线服务 - AI开发平台ModelArts

部署在线服务部署在线服务包括：已部署为在线服务的初始化。部署在线服务predictor。部署批量服务transformer。部署服务返回服务对象Predictor，其属性包括服务管理章节下的所有功能。示例代码在ModelArts notebook平台，Session

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
启动推理服务 - AI开发平台ModelArts

=ray】，其他参数与正常启服务一致即可。具体参考本文单机场景下OpenAI服务的API接口启动在线推理服务方式。推理请求测试使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见启动在线推理服务。通过OpenAI服务API接口启动服务使用以下推理测试命令。${d

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
查询服务监控信息 - AI开发平台ModelArts

model_id String 模型ID，在线服务字段。 invocation_times Integer 模型实例的总调用次数，在线服务字段。 cpu_core_usage Float 已使用CPU核数。 cpu_core_total Float 总CPU核数。 model_name String

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
更新服务配置 - AI开发平台ModelArts

real-time和batch服务类型可选。部署服务时使用的AI专属资源池弹性集群的资源池ID，使用专属资源池部署服务时需确保集群状态正常；该参数优先级高于cluster_id，配置该参数时需要同时配置服务层级的cluster_id或pool_name参数，且该参数优先级高于服务层级的cluster_id

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
部署推理服务 - AI开发平台ModelArts

配置后重启服务生效。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart.html。以下服务启动介

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
部署推理服务 - AI开发平台ModelArts

会有损失。如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化或使用SmoothQuant量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
查询服务更新日志 - AI开发平台ModelArts

用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。响应参数状态码：200 表4 响应Body参数参数参数类型描述 service_name String 服务名称。 service_id String 服务ID。 logs

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
更新服务配置 - AI开发平台ModelArts

更新服务配置更新当前服务对象配置。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数；其它平台的Session鉴权请参考Session鉴权。方式1：根据部署在线服务生成的服务对象进行更新服务配置 1 2 3 4 5 6 7

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
查询服务监控信息 - AI开发平台ModelArts

failed_times Number 模型实例调用失败次数。 cpu_core_usage Float 已使用CPU核数。 cpu_core_total Float 总CPU核数。 cpu_memory_usage Integer 已使用内存，单位MB。 cpu_memory_total Integer

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
配置Lite Server网络 - AI开发平台ModelArts

单个弹性公网IP用于单个Server服务器：为单台Server服务器绑定一个弹性公网IP，该Server服务器独享网络资源。单个弹性公网IP用于多个Server服务器：一个VPC配置一个EIP（弹性公网IP），通过NAT网关配置进行EIP资源共享，实现该VPC下的所有Server服务器均可以通过该E

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
使用Gallery CLI配置工具上传文件 - AI开发平台ModelArts

获取待上传的文件名获取待上传的文件在服务器的绝对路径。上传单个文件在服务器执行如下命令，可以将服务器上的文件上传到AI Gallery仓库里面。 gallery-cli upload {repo_id} {文件名} 如下所示，表示将服务器上的文件“D:\workplace\m

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

在遇到资源不足的情况时，ModelArts会进行三次重试，在服务重试期间，如果有资源释放出来，则服务可以正常部署成功。如果三次重试后依然没有足够的资源，则本次服务部署失败。参考以下方式解决：如果是在公共资源池部署服务，可等待其他用户释放资源后，再进行服务部署。如果是在专属资源池部署服务，在满足模型需求的前提下

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
分离部署推理服务 - AI开发平台ModelArts

USE_OPENAI：仅在服务入口实例生效，用于配置api-server服务是否使用openai服务，默认为1。当配置为1时，启动服务为openai服务；当配置为0时，启动服务为vllm服务。其中常见的参数如下： --host：服务部署的IP --port：服务部署的端口，注意如果不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

quit) 步骤七推理请求使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。方式一：通过OpenAI服务API接口启动服务使用以下推理测试命令。${docker_ip}替换为实际宿主机的IP地址。如果启动服务未添加served-model-name参数，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件在服务器（ModelArts Lite云服务器或者是本地Windows/Linux等服务器）上登录Gallery CLI配置工具后，通过命令“gallery-cli download”可以从AI Gallery仓库下载资源。命令说明登录Gallery

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
分离部署推理服务 - AI开发平台ModelArts

USE_OPENAI：仅在服务入口实例生效，用于配置api-server服务是否使用openai服务，默认为1。当配置为1时，启动服务为openai服务；当配置为0时，启动服务为vllm服务。其中常见的参数如下： --host：服务部署的IP --port：服务部署的端口，注意如果不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
在Linux上安装配置Grafana - AI开发平台ModelArts

一台可访问外网的Ubuntu服务器。如果没有请具备以下条件：准备一台ECS服务器（建议规格选8U或者以上，镜像选择Ubuntu，建议选择22.04版本，本地存储100G），具体操作请参考《购买弹性云服务器》。购买弹性公网IP，并绑定到购买的弹性云服务器ECS上，具体操作请参见《弹性公网IP快速入门》。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana

总条数： 679

上一页
1
2
3
4
5
...
34
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

部署在线服务 - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

查询服务更新日志 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

配置Lite Server网络 - AI开发平台ModelArts

使用Gallery CLI配置工具上传文件 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线