搜索_华为云

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。什么是分离部署大模型推理是自回归的过程，有以下两阶段： Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
MiniCPM-V2.0推理及LoRA微调基于DevServer适配PyTorch NPU指导（6.3.910） - AI开发平台ModelArts

MiniCPM-V2.0推理及LoRA微调基于DevServer适配PyTorch NPU指导（6.3.910）本文档主要介绍如何在ModelArts Lite的DevServer环境中，使用NPU卡对MiniCPM-V2.0进行LoRA微调及推理。本文档中提供的训练脚本，是基

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。什么是分离部署大模型推理是自回归的过程，有以下两阶段： Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
CogVideoX1.5 5b模型基于DevServer适配PyTorch NPU全量训练指导（6.3.912） - AI开发平台ModelArts

CogVideoX1.5 5b模型基于DevServer适配PyTorch NPU全量训练指导（6.3.912）本文档主要介绍如何在ModelArts的DevServer环境中，使用NPU卡对CogVideoX模型进行全量微调。本文档中提供的脚本，是基于原生CogVideoX的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
修改训练作业优先级 - AI开发平台ModelArts

选择优先级1和2，配置了“设置作业为高优先级权限”的用户可选择优先级1~3。如何设置训练作业优先级在创建训练作业页面可以设置训练的“作业优先级”。取值为1~3，默认优先级为1，最高优先级为3。如何修改训练作业优先级在训练作业列表页面，选择“状态”为“等待中”的训练作业，单

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911）本文档主要介绍如何在ModelArts Lite的DevServer环境中，使用NPU卡对CogVideoX模型基于sat框架进行全量微调。本文档中提供的脚本，是基于原生CogV

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务本章节介绍如何使用vLLM 0.6.3框架部署并启动推理服务。什么是分离部署大模型推理是自回归的过程，有以下两阶段： Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
Open-Sora-Plan1.0基于DevServer适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

Open-Sora-Plan1.0基于DevServer适配PyTorch NPU训练推理指导（6.3.907）本文档主要介绍如何在ModelArts Lite DevServer上，使用PyTorch_npu+华为自研Ascend Snt9B硬件，完成Open-Sora-Plan1

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
推理性能测试 - AI开发平台ModelArts

--served-model-name：选择性添加，在接口中使用的模型名；如果没有配置，则默认为tokenizer。脚本运行完成后，测试结果保存在benchmark_parallel.csv中，示例如下图所示。图1 静态benchmark测试结果（示意图）动态benchmark 本章节介绍如何进行动态benchmark验证。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU）本章节介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是MPI，训练使用的资源是CPU或GPU。本实践教程仅适用于新版训练作业。场景描述本示例使用Linux

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
W8A8量化 - AI开发平台ModelArts
W8A8量化 - AI开发平台ModelArts

粒度量化。参考启动推理服务，启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant 使用llm-compressor工具量化Deepseek-v2系列模型本章节介绍如何在GPU的机器上使用开源量化工具llm-co

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
多模态模型推理性能测试 - AI开发平台ModelArts

下。工具相关介绍在benchmark代码目录。约束限制当前版本仅支持语言+图片多模态性能测试。静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在步骤三：上传代码包和权重文件中已经上传过AscendCloud-LLM-x

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务性能评测
从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU）本章节介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是MPI，训练使用的资源是CPU或GPU。本实践教程仅适用于新版训练作业。场景描述本示例使用Linux x86_

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调、超参配置、训练任务、性能查看。 LoRA微调训练介绍如何进行LoRA微调、超参配置、训练任务、性能查看。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

自动将新闻内容归类到相应板块，如科技、体育或国际新闻，以提升用户体验和内容检索效率。社交媒体平台：对用户分享的新闻链接进行智能分类，帮助用户迅速定位到感兴趣的话题。内容推荐系统：根据用户的阅读偏好和历史行为，智能推荐相关新闻，增强用户粘性和满意度。新闻分析工具：为分析师提供自动分类的新闻数据，便于进行市场趋势和热点分析。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
快速配置ModelArts委托授权 - AI开发平台ModelArts

elArts会提醒您当前用户未配置授权，需联系此IAM用户的管理员账号进行委托授权。添加授权登录ModelArts管理控制台，在左侧导航栏选择“权限管理”，进入“权限管理”页面。单击“添加授权”，进入“访问授权”配置页面，根据参数说明进行配置。表1 参数说明参数说明 “授权对象类型”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Turbo中的数据执行编辑操作。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、创建训练任务及性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调，包括训练数据处理、超参配置、创建训练任务及性能查看。 LoRA微调训练介绍如何进行LoRA微调训练，包括训练数据处理、超参配置、创建训练任务及性能查看。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

--trust-remote-code：是否相信远程代码。高阶参数说明： --enable-prefix-caching：如果prompt的公共前缀较长或者多轮对话场景下推荐使用prefix-caching特性。在推理服务启动脚本中添加此参数表示使用，不添加表示不使用。 --quantiza

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
语言模型推理性能测试 - AI开发平台ModelArts

--benchmark-csv：结果保存路径，如benchmark_serving.csv。 --served-model-name：选择性添加，选择性添加，在接口中使用的模型名；如果没有配置，则默认为tokenizer。 --num-scheduler-steps: 服务启动时如果配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务性能评测
语言模型推理性能测试 - AI开发平台ModelArts

--benchmark-csv：结果保存路径，如benchmark_serving.csv。 --served-model-name：选择性添加，选择性添加，在接口中使用的模型名；如果没有配置，则默认为tokenizer。 --num-scheduler-steps: 服务启动时如果配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理性能测试

总条数： 317

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

分离部署推理服务 - AI开发平台ModelArts

MiniCPM-V2.0推理及LoRA微调基于DevServer适配PyTorch NPU指导（6.3.910） - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

CogVideoX1.5 5b模型基于DevServer适配PyTorch NPU全量训练指导（6.3.912） - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

Open-Sora-Plan1.0基于DevServer适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

W8A8量化 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

快速配置ModelArts委托授权 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线