搜索_华为云

部署推理服务 - AI开发平台ModelArts

--quantization：推理量化参数。当使用量化功能，则在推理服务启动脚本中增加该参数，若未使用量化功能，则无需配置。根据使用的量化方式配置，可选择awq或smoothquant方式。 --speculative-model ${container_draft_model_path}：投

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
部署推理服务 - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
部署推理服务 - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found 问题现象部署在线服务出现报错No CUDA runtime is found，using CUDA_HOME='/usr/local/cuda'。原因分析从日志报错信息No CUDA runtime is

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
使用AppCode认证鉴权方式进行在线预测 - AI开发平台ModelArts

开启AppCode认证（部署模型为在线服务中的“支持APP认证”参数）。对于已部署的在线服务，ModelArts支持修改其配置开启AppCode认证。本文主要介绍如何修改一个已有的在线服务，使其支持AppCode认证并进行在线预测。前提条件提前部署在线服务，具体操作可以参考案例：使用ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

务可以正常部署成功。如果三次重试后依然没有足够的资源，则本次服务部署失败。参考以下方式解决：如果是在公共资源池部署服务，可等待其他用户释放资源后，再进行服务部署。如果是在专属资源池部署服务，在满足模型需求的前提下，尝试选用更小的容器规格或自定义规格，进行服务部署；如果当前

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
实时推理的部署及使用流程 - AI开发平台ModelArts

方式、访问通道、传输协议，以上三个要素共同构成您的访问请求，三者可自由组合互不影响（例如不同的认证方式可以搭配不同的访问通道、不同的传输协议）。图1 认证方式、访问通道、传输协议当前ModelArts支持访问在线服务的认证方式有以下方式（案例中均以HTTPS请求为例）： To

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
Standard推理部署 - AI开发平台ModelArts

Standard推理部署 ModelArts Standard推理服务访问公网方案端到端运维ModelArts Standard推理服务方案使用自定义引擎在ModelArts Standard创建模型使用大模型在ModelArts Standard创建模型部署在线服务第三方推理框架迁移到ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践
模型使用CV2包部署在线服务报错 - AI开发平台ModelArts

模型使用CV2包部署在线服务报错问题现象使用CV2包部署在线服务报错。原因分析使用OBS导入元模型，会用到服务侧的标准镜像，标准镜像里面没有CV2依赖的so的内容。所以ModelArts不支持从对象存储服务（OBS）导入CV2模型包。处理方法需要您把CV2包制作为自定

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
通过公网访问通道的方式访问在线服务 - AI开发平台ModelArts

因APIG（API网关）限制，平台每次请求预测的时间不超过40秒。访问在线服务公网访问在线服务有以下认证方式，API调用请参见认证详情：通过Token认证的方式访问在线服务通过AK/SK认证的方式访问在线服务通过APP认证的方式访问在线服务父主题：访问在线服务支持的访问通道

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

出现此问题现象，通常是因为您部署的模型过大导致的。解决方法如下：精简模型，重新导入模型和部署上线。购买专属资源池，在部署上线为在线服务时，使用专属资源池进行部署。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

接，并进行双向数据传输。前提条件在线服务部署时需选择“升级为WebSocket”。在线服务中的模型导入选择的镜像需支持WebSocket协议。约束与限制 WebSocket协议只支持部署在线服务。只支持自定义镜像导入模型部署的在线服务。调用API访问在线服务时，对预测请求体大小和预测时间有限制：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
部署模型为在线服务 - AI开发平台ModelArts

如果您的元模型是自定义的，即推理代码和配置文件是自行编写的（配置文件编写说明），“调用指南”只是将您编写的配置文件进行了可视化展示。调用指南的输入参数与配置文件对应关系如下所示。图2 配置文件与调用指南的对应关系不同输入请求的预测方式如下： JSON文本预测登录Model

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？问题现象服务部署、启动、升级和修改时，镜像不断重启。原因分析容器镜像代码错误解决方法根据容器日志进行排查，修复代码，重新创建模型，部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
通过VPC访问通道的方式访问在线服务 - AI开发平台ModelArts

I接口公网地址”截取域名之后的地址部分。图1 获取URL 使用图形界面的软件、curl命令、Python语言等多种方式访问在线服务。可参考通过Token认证的方式访问在线服务。父主题：访问在线服务支持的访问通道

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

本列表的状态显示为“就绪”时表示模型可以使用。步骤三：使用订阅模型部署在线服务模型订阅成功后，可将此模型部署为在线服务在展开的版本列表中，单击“部署 > 在线服务”跳转至部署页面。图2 部署模型在部署页面，参考如下说明填写关键参数。 “名称”：自定义一个在线服务的名称，

帮助中心 > AI开发平台ModelArts > 快速入门
部署推理服务 - AI开发平台ModelArts

部署推理服务自动化脚本快速部署推理服务（推荐）手动部署推理服务父主题： DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
Standard推理部署 - AI开发平台ModelArts

Standard推理部署如何将Keras的.h5格式的模型导入到ModelArts中？ ModelArts导入模型时，如何编写模型配置文件中的安装包依赖参数？在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ ModelArts平台是否支持多模型导入？在Mod

帮助中心 > AI开发平台ModelArts > 常见问题
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

面，完成基本配置后单击“下一步：网络配置”，进入网络配置页面，选择1中打通的VPC，完成其他参数配置，完成高级配置并确认配置，下发购买弹性云服务器的任务。等待服务器的状态变为“运行中”时，弹性云服务器创建成功。单击“名称/ID”，进入服务器详情页面，查看虚拟私有云配置信息。图4

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
部署推理服务 - AI开发平台ModelArts

部署推理服务非分离部署推理服务分离部署推理服务父主题：主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）

总条数： 1671

上一页
1
2
3
4
5
...
84
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

使用AppCode认证鉴权方式进行在线预测 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

实时推理的部署及使用流程 - AI开发平台ModelArts

Standard推理部署 - AI开发平台ModelArts

模型使用CV2包部署在线服务报错 - AI开发平台ModelArts

通过公网访问通道的方式访问在线服务 - AI开发平台ModelArts

自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

通过VPC访问通道的方式访问在线服务 - AI开发平台ModelArts

使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

Standard推理部署 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线