搜索_华为云

部署推理服务 - AI开发平台ModelArts

配置后重启服务生效。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart.html。以下服务启动介

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

句，这些服务必须是同一属性，即都是全局级服务或者项目级服务。由于OBS为全局服务，ModelArts为项目级服务，所以需要创建两条“作用范围”别为“全局级服务”以及“项目级服务”的自定义策略，然后将两条策略同时授予用户。创建ModelArts相关OBS的最小化权限的自定义策略。

帮助中心 > AI开发平台ModelArts > 常见问题 > 权限相关
使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

句，这些服务必须是同一属性，即都是全局级服务或者项目级服务。由于OBS为全局服务，ModelArts为项目级服务，所以需要创建两条“作用范围”别为“全局级服务”以及“项目级服务”的自定义策略，然后将两条策略同时授予用户。创建ModelArts相关OBS的最小化权限的自定义策略。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > FAQ
创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

ModelArts标注的数据存储在OBS中。自动训练训练作业结束后，其生成的模型存储在OBS中。部署上线 ModelArts将存储在OBS中的模型部署上线为在线服务。 Standard AI全流程开发数据管理数据集存储在OBS中。数据集的标注信息存储在OBS中。支持从OBS中导入数据。开发环境

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作
部署推理服务 - AI开发平台ModelArts

会有损失。如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化或使用SmoothQuant量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
场景介绍及环境准备 - AI开发平台ModelArts

度及性能调优。环境准备迁移环境准备有以下两种方式：表1 迁移环境准备方式方式说明 ModelArts Notebook 该环境为在线调试环境，主要面向演示、体验和快速原型调试场景。环境开通指导请参考Notebook环境创建。 ModelArts Lite DevServer

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优
分离部署推理服务 - AI开发平台ModelArts

USE_OPENAI：仅在服务入口实例生效，用于配置api-server服务是否使用openai服务，默认为1。当配置为1时，启动服务为openai服务；当配置为0时，启动服务为vllm服务。其中常见的参数如下： --host：服务部署的IP --port：服务部署的端口，注意如果不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

USE_OPENAI：仅在服务入口实例生效，用于配置api-server服务是否使用openai服务，默认为1。当配置为1时，启动服务为openai服务；当配置为0时，启动服务为vllm服务。其中常见的参数如下： --host：服务部署的IP --port：服务部署的端口，注意如果不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
更新Workflow Execution - AI开发平台ModelArts

dataset：数据集 obs：OBS swr：SWR model_list：AI应用列表 label_task：标注任务 service：在线服务 conditions 否 Array of Constraint objects 数据约束条件。 value 否 Map<String

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
创建和修改工作空间 - AI开发平台ModelArts

Point。确认服务的部署区域，获取项目名称和ID、获取帐号名和ID和获取用户名和ID。操作步骤调用认证鉴权接口获取用户的Token。请求消息体： URI格式：POST https://{iam_endpoint}/v3/auth/tokens 请求消息头：Content-Type

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
非分离部署推理服务 - AI开发平台ModelArts

式如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
配置Standard专属资源池可访问公网 - AI开发平台ModelArts

C的方式，使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内，实现专属资源池访问外网。前提条件已拥有需要部署SNAT的弹性云服务器。待部署SNAT的弹性云服务器操作系统为Linux操作系统。待部署SNAT的弹性云服务器网卡已配置为单网卡。步骤一：打通VPC 通过

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
查询预置算法 - AI开发平台ModelArts

表1 参数说明参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求消息请求参数如表2所示。表2 查询检索参数参数是否必选参数类型说明 per_page 否 Integer 指定每一页展示作业参数的

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

quit) Step4 请求推理服务另外启动一个terminal，使用命令测试推理服务是否正常启动，端口请修改为启动服务时指定的端口。使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。方式一：通过OpenAI服务API接口启动服务使用以下推理测试命令。${d

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

创建虚拟私有云和子网弹性云服务器ECS 如果您需要在服务器上部署相关业务，较之物理服务器，弹性云服务器的创建成本较低，并且可以在几分钟之内快速获得基于云服务平台的弹性云服务器设施，并且这些基础设施是弹性的，可以根据需求伸缩。购买的ECS服务可以用于挂载SFS Turbo存储。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
推理精度测试 - AI开发平台ModelArts

vllm_path：构造vllm评测配置脚本名字，默认为vllm。 host：与起服务的host保持一致，比如起服务为0.0.0.0，host设置也为0.0.0.0。 service_port：服务端口，与启动服务时的端口保持，比如8080。 max_out_len：在运行类似mmlu、

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
使用AWQ量化工具转换权重 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step3 启动推理服务，在启动服务时添加如下命令。 --q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本案例在Notebook上部署推理服务进行调试，因此需要创建Notebook。部署推理服务在Notebook调试环境中部署推理服务介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。如果需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。在推理生产环境中部署推理服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
使用AWQ量化工具转换权重 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step3 启动推理服务，在启动服务时添加如下命令。 --q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化

总条数： 1555

上一页
1
...
15
16
17
...
78
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

部署推理服务 - AI开发平台ModelArts

使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

场景介绍及环境准备 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

更新Workflow Execution - AI开发平台ModelArts

创建和修改工作空间 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

配置Standard专属资源池可访问公网 - AI开发平台ModelArts

查询预置算法 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线