搜索_华为云

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

面，完成基本配置后单击“下一步：网络配置”，进入网络配置页面，选择1中打通的VPC，完成其他参数配置，完成高级配置并确认配置，下发购买弹性云服务器的任务。等待服务器的状态变为“运行中”时，弹性云服务器创建成功。单击“名称/ID”，进入服务器详情页面，查看虚拟私有云配置信息。图4

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

"best_of":2 Step6 推理服务的高阶配置（可选）如需开启以下高阶配置，请在Step3 配置NPU环境时增加需要开启的高阶配置参数。词表切分在分布式场景下，默认不使用词表切分能提升推理性能，同时也会增加单卡的显存占用。不建议开启词表并行，如确需使用词表切分，配置以下环境变量。 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
1个节点的专属资源池，能否部署多个服务？ - AI开发平台ModelArts

1个节点的专属资源池，能否部署多个服务？支持。在部署服务时，选择专属资源池，在选择“计算节点规格”时选择“自定义规格”，设置小一些或者选择小规格的服务节点规格，当资源池节点可以容纳多个服务节点规格时，就可以部署多个服务。如果使用此方式进行部署推理，选择的规格务必满足模型的要求，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard资源池
Method Not Allowed - AI开发平台ModelArts

Method Not Allowed 问题现象服务预测报错：Method Not Allowed 原因分析服务预测默认注册的API需要使用POST方法调用。如您使用了GET方法，APIG（API网关）将会拦截请求。处理方法使用POST方法调用。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
什么是ModelArts - AI开发平台ModelArts

ModelArts是华为云提供的一站式AI开发平台，提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。 “一站式”是指AI开发的各个环节，包括数据处理、算法开发、模型训练、模型部署都可以在Model

帮助中心 > AI开发平台ModelArts > 产品介绍
在推理生产环境中部署推理服务 - AI开发平台ModelArts

提工单扩容。 Step3 部署在线服务将Step2 部署模型中创建的AI应用部署为一个在线服务，用于推理调用。在ModelArts控制台，单击“模型部署 > 在线服务 > 部署”，开始部署在线服务。设置部署服务名称，选择Step2 部署模型中创建的AI应用。选择专属资源池，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

提工单扩容。 Step3 部署在线服务将Step2 部署模型中创建的AI应用部署为一个在线服务，用于推理调用。在ModelArts控制台，单击“模型部署 > 在线服务 > 部署”，开始部署在线服务。设置部署服务名称，选择Step2 部署模型中创建的AI应用。选择专属资源池，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

Step3 部署在线服务将Step2 部署模型中创建的AI应用部署为一个在线服务，用于推理调用。在ModelArts控制台，单击“部署上线 > 在线服务 > 部署”，开始部署在线服务。图5 部署在线服务设置部署服务名称，选择Step2 部署模型中创建的AI应用。选择专

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
使用ModelArts Standard部署模型并推理预测 - AI开发平台ModelArts

使用ModelArts Standard部署模型并推理预测推理部署使用场景创建模型创建模型规范参考将模型部署为实时推理作业将模型部署为批量推理服务管理ModelArts模型管理同步在线服务管理批量推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
导入模型 - AI开发平台ModelArts
导入模型 - AI开发平台ModelArts

导入模型如何将Keras的.h5格式模型导入到ModelArts中导入模型时，模型配置文件中的安装包依赖参数如何编写？使用自定义镜像创建在线服务，如何修改默认端口 ModelArts平台是否支持多模型导入导入AI应用对于镜像大小的限制父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 模型管理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

ion的block大小，推荐设置为128。 --host=${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：服务部署的端口。 --gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

ion的block大小，推荐设置为128。 --host=${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：服务部署的端口。 --gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

Step3 部署在线服务将Step2 部署模型中创建的AI应用部署为一个在线服务，用于推理调用。在ModelArts控制台，单击“部署上线 > 在线服务 > 部署”，开始部署在线服务。图5 部署在线服务设置部署服务名称，选择Step2 部署模型中创建的AI应用。选择专

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

Step3 部署在线服务将Step2 部署模型中创建的AI应用部署为一个在线服务，用于推理调用。在ModelArts控制台，单击“部署上线 > 在线服务 > 部署”，开始部署在线服务。图5 部署在线服务设置部署服务名称，选择Step2 部署模型中创建的AI应用。选择专

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

Step3 部署在线服务将Step2 部署模型中创建的AI应用部署为一个在线服务，用于推理调用。在ModelArts控制台，单击“部署上线 > 在线服务 > 部署”，开始部署在线服务。图5 部署在线服务设置部署服务名称，选择Step2 部署模型中创建的AI应用。选择专

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

开启投机推理后无需配置该参数。 --host=${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：服务部署的端口。 --gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
查看批量服务的事件 - AI开发平台ModelArts

查看批量服务的事件服务的（从用户可看见部署服务任务开始）整个生命周期中，每一个关键事件点在系统后台均有记录，用户可随时在对应服务的详情页面进行查看。方便用户更清楚的了解服务部署和运行过程，遇到任务异常时，更加准确的排查定位问题。可查看的事件点包括：表1 事件事件类型事件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
查看在线服务的事件 - AI开发平台ModelArts

查看在线服务的事件服务的（从用户可看见部署服务任务开始）整个生命周期中，每一个关键事件点在系统后台均有记录，用户可随时在对应服务的详情页面进行查看。方便用户更清楚的了解服务部署和运行过程，遇到任务异常时，更加准确的排查定位问题。可查看的事件点包括：表1 事件事件类型事件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

top_k 否 -1 Int 控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）

总条数： 2414

上一页
1
...
7
8
9
...
121
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

1个节点的专属资源池，能否部署多个服务？ - AI开发平台ModelArts

Method Not Allowed - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

使用ModelArts Standard部署模型并推理预测 - AI开发平台ModelArts

导入模型 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

查看批量服务的事件 - AI开发平台ModelArts

查看在线服务的事件 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线