搜索_华为云

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。什么是非分离部署全量推理和增量推理在同一节点上进行。前提条件已准备好Server环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。安装过程需要连接互联网

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务本章节介绍如何使用vLLM 0.6.3框架部署并启动推理服务。什么是非分离部署全量推理和增量推理在同一节点上进行。前提条件已准备好Server环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。安装过程需要连接互联网

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
部署推理服务 - AI开发平台ModelArts

部署推理服务本章节介绍如何使用vLLM 0.4.2框架部署并启动推理服务。前提条件已准备好Server环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保容器可以访问公网。 Step1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务本章节介绍如何使用vLLM 0.6.3框架部署并启动推理服务。什么是分离部署大模型推理是自回归的过程，有以下两阶段： Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境场景描述本文旨在指导如何在GPU裸金属服务器上，安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业操作流程准备工作：购买服务资源（VPC/SFS/OBS/SWR/ECS）配置权限创建专属资源池（打通VPC） ECS服务器挂载SFS Turbo存储在ECS中设置ModelArts用户可读权限安装和配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
部署推理服务 - AI开发平台ModelArts

部署推理服务本章节介绍如何使用vLLM 0.5.0框架部署并启动推理服务。前提条件已准备好Server环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保容器可以访问公网。 Step1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
批量添加样本 - AI开发平台ModelArts

批量添加样本功能介绍批量添加样本。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/datasets/{dataset_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
自动化脚本快速部署推理服务（推荐） - AI开发平台ModelArts

自动化脚本快速部署推理服务（推荐）场景描述本方案提供了一键式安装脚本start.sh，用于快速部署推理服务。脚本中实现了以下步骤的自动化操作：环境检查拉取镜像根据实际值更新rank_table_file.json 启动容器进入容器启动服务前提条件已经完成资源购买。

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 部署推理服务
查询数据集详情 - AI开发平台ModelArts

查询数据集详情功能介绍查询数据集详情。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datasets/{dataset_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业操作流程准备工作：购买服务资源（VPC、SFS、SWR和ECS）配置权限创建专属资源池（打通VPC）在ECS服务器挂载SFS Turbo存储在ECS中设置ModelArts用户可读权限安装和配置OBS

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
PD分离部署使用说明 - AI开发平台ModelArts

PD分离部署使用说明什么是PD分离部署大模型推理是自回归的过程，有以下两阶段： Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型。 Decode阶段（增量推理）将请求的前1个token

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 分离部署
查询数据集列表 - AI开发平台ModelArts

查询数据集列表功能介绍根据指定条件分页查询用户创建的所有数据集。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datasets

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务本章节介绍如何使用vLLM 0.5.0框架部署并启动推理服务。什么是分离部署大模型推理是自回归的过程，有以下两阶段： Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。什么是分离部署大模型推理是自回归的过程，有以下两阶段： Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。什么是分离部署大模型推理是自回归的过程，有以下两阶段： Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业操作流程准备工作购买服务资源（OBS和SWR）配置权限创建专属资源池（不需要打通VPC）安装和配置OBS命令行工具（可选）工作空间配置模型训练本地构建镜像及调试上传镜像上传数据和算法到OBS 使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业

总条数： 677

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

批量添加样本 - AI开发平台ModelArts

自动化脚本快速部署推理服务（推荐） - AI开发平台ModelArts

查询数据集详情 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

PD分离部署使用说明 - AI开发平台ModelArts

查询数据集列表 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线