搜索_华为云

准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注意：CPU架构必须选择鲲鹏计算，镜像推荐选择EulerOS。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注意：CPU架构必须选择鲲鹏计算，镜像推荐选择EulerOS。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
查询服务列表 - AI开发平台ModelArts

service_id String 服务ID。 service_name String 服务名称。 description String 服务描述。 tenant String 服务归属租户。 project String 服务归属项目。 owner String 服务归属用户。 publish_at

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
查询服务对象列表 - AI开发平台ModelArts

service_id String 服务ID。 service_name String 服务名称。 description String 服务描述。 tenant String 服务归属租户。 project String 服务归属项目。 owner String 服务归属用户。 publish_at

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

在开发环境中部署本地服务进行调试可以通过部署本地服务来进行调试，即在导入模型或模型调试后，在开发环境Notebook中部署Predictor进行本地推理。只支持使用ModelArts Notebook部署本地服务。开发环境本地服务Predictor和在线服务Predictor说明

 帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

quit) Step4 请求推理服务另外启动一个terminal，使用命令测试推理服务是否正常启动，端口请修改为启动服务时指定的端口。使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。方式一：通过OpenAI服务API接口启动服务使用以下推理测试命令。${d

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

quit) Step4 请求推理服务另外启动一个terminal，使用命令测试推理服务是否正常启动，端口请修改为启动服务时指定的端口。使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。方式一：通过OpenAI服务API接口启动服务使用以下推理测试命令。${d

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
将模型部署为批量推理服务 - AI开发平台ModelArts

耗时几分钟到几十分钟不等。批量服务部署完成后，将立即启动，运行过程中将按照您选择的资源按需计费。您可以前往批量服务列表，查看批量服务的基本情况。在批量服务列表中，刚部署的服务“状态”为“部署中”，当批量服务的“状态”变为“运行完成”时，表示服务部署完成。 Manifest文件规范

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
创建在线服务包 - AI开发平台ModelArts

表2 请求Body参数参数是否必选参数类型描述 status 否 String 服务包状态。 pool_id 是 String 资源池ID。 service_id 否 String 在线服务ID。 workflow_id 否 String Workflow工作流ID。 order

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
在推理生产环境中部署推理服务 - AI开发平台ModelArts

参数解释请参见部署在线服务。图6 部署在线服务-专属资源池单击“下一步”，再单击“提交”，开始部署服务，待服务状态显示“正常”服务部署完成。图7 服务部署完成 Step4 调用在线服务进入在线服务详情页面，选择“预测”。如果以vllm接口启动服务，设置请求路径：“/ge

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
准备镜像环境 - AI开发平台ModelArts

Turbo步骤中创建的PVC名称。在设置容器中需要的CPU与内存大小时，可通过运行以下命令查看申请的节点机器中具体的CPU与内存信息。 kubectl describe node ${requests_cpu} 指在容器中请求的最小CPU核心数量，可使用Requests中的值，例如2650m。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
在推理生产环境中部署推理服务 - AI开发平台ModelArts

参数解释请参见部署在线服务。图6 部署在线服务-专属资源池单击“下一步”，再单击“提交”，开始部署服务，待服务状态显示“正常”服务部署完成。图7 服务部署完成 Step4 调用在线服务进入在线服务详情页面，选择“预测”。如果以vllm接口启动服务，设置请求路径：“/ge

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
推理专属预置镜像列表 - AI开发平台ModelArts

ModelArts的推理平台提供了一系列的基础镜像，用户可以基于这些基础镜像构建自定义镜像，用于部署推理服务。 X86架构（CPU/GPU）的推理基础镜像表1 TensorFlow AI引擎版本支持的运行环境镜像名称 URI 2.1.0 CPU GPU(cuda10.1) tensorflow_2.1.0-cuda_10

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

VPC下创建弹性云服务器登录弹性云服务器ECS控制台，单击右上角“购买弹性云服务器”，进入购买弹性云服务器页面，完成基本配置后单击“下一步：网络配置”，进入网络配置页面，选择1中打通的VPC，完成其他参数配置，完成高级配置并确认配置，下发购买弹性云服务器的任务。等待服务器的状态变为

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
准备镜像环境 - AI开发平台ModelArts

Turbo步骤中创建的PVC名称。在设置容器中需要的CPU与内存大小时，可通过运行以下命令查看申请的节点机器中具体的CPU与内存信息。 kubectl describe node ${requests_cpu} 指在容器中请求的最小CPU核心数量，可使用Requests中的值，例如2650m。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备镜像环境 - AI开发平台ModelArts

Turbo步骤中创建的PVC名称。在设置容器中需要的CPU与内存大小时，可通过运行以下命令查看申请的节点机器中具体的CPU与内存信息。 kubectl describe node ${requests_cpu} 指在容器中请求的最小CPU核心数量，可使用Requests中的值，例如2650m。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备镜像环境 - AI开发平台ModelArts

Turbo步骤中创建的PVC名称。在设置容器中需要的CPU与内存大小时，可通过运行以下命令查看申请的节点机器中具体的CPU与内存信息。 kubectl describe node ${requests_cpu} 指在容器中请求的最小CPU核心数量，可使用Requests中的值，例如2650m。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

表1 请求服务参数说明参数是否必选默认值参数类型描述 model 是无 Str 通过OpenAI服务API接口启动服务时，推理请求必须填写此参数。取值必须和启动推理服务时的model ${model_path}参数保持一致。通过vLLM服务API接口启动服务时，推理请求不涉及此参数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
推理业务迁移评估表 - AI开发平台ModelArts

C++/Python/JAVA等。例如：业务逻辑使用JAVA，推理服务模块使用C++自定义实现推理框架，Python 3.7等。 - CPU使用率业务中是否有大量使用CPU的代码，以及日常运行过程中CPU的占用率（占用多少个核心），以及使用CPU计算的业务功能说明和并发机制。 - 是否有Linux内核驱动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
在推理生产环境中部署推理服务 - AI开发平台ModelArts

议设置为40分钟。此处仅介绍关键参数，更多详细参数解释请参见部署在线服务。图3 部署在线服务-专属资源池单击“下一步”，再单击“提交”，开始部署服务，待服务状态显示“正常”服务部署完成。注：若部署在线服务出现报错starting container process caused

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）

总条数： 679

上一页
1
...
5
6
7
...
34
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

查询服务列表 - AI开发平台ModelArts

查询服务对象列表 - AI开发平台ModelArts

在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

将模型部署为批量推理服务 - AI开发平台ModelArts

创建在线服务包 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

推理专属预置镜像列表 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

推理业务迁移评估表 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线