搜索_华为云

分离部署推理服务 - AI开发平台ModelArts

json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入口实例生效，用于与全量推理实例、增量推理实例的信息交互。该参数入参为形如{port1},{port2},{portn}的字符串，与全量或增量推理实例启动的--port参数相关。--port表示服务部署的端口。每个全

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
管理训练容器环境变量 - AI开发平台ModelArts

Library）环境变量 OBS环境变量 PIP源环境变量 API网关地址环境变量作业元信息环境变量约束限制为了避免新设置的环境变量与系统环境变量冲突，而引起作业运行异常或失败，请在定义自定义环境变量时，不要使用“MA_”开头的名称。如何修改环境变量用户可以在创建训练作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

图6 模型checkpoint 步骤3 单机多卡训练和单机单卡训练相比，单机多卡训练只需在预训练脚本中设置多卡参数相关即可，其余步骤与单机单卡相同。当前选择GPU裸金属服务器是8卡，因此需要在预训练脚本中调整如下参数： GPUS_PER_NODE=8 调整全局批处理大小（global

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
非分离部署推理服务 - AI开发平台ModelArts

WQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
将模型部署为批量推理服务 - AI开发平台ModelArts

输入数据的对应输出结果。 JSON内容包含多个字段。 source：输入数据描述，与输入的manifest一致。 result：文件处理结果，值为SUCCESSFUL或FAILED，分别代表成功与失败。 inference-loc：输出结果路径，result为SUCCESSFUL

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
分离部署推理服务 - AI开发平台ModelArts

json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入口实例生效，用于与全量推理实例、增量推理实例的信息交互。该参数入参为形如{port1},{port2},{portn}的字符串，与全量或增量推理实例启动的--port参数相关。--port表示服务部署的端口。每个全

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入口实例生效，用于与全量推理实例、增量推理实例的信息交互。该参数入参为形如{port1},{port2},{portn}的字符串，与全量或增量推理实例启动的--port参数相关。--port表示服务部署的端口。每个全

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入口实例生效，用于与全量推理实例、增量推理实例的信息交互。该参数入参为形如{port1},{port2},{portn}的字符串，与全量或增量推理实例启动的--port参数相关。--port表示服务部署的端口。每个全

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

性能调优性能测试 benchmark工具也可用于性能测试，其主要的测试指标为模型单次前向推理的耗时。在性能测试任务中，与精度测试不同，并不需要用户指定对应的输入（inDataFile）和输出的标杆数据（benchmarkDataFile），benchmark工具会随机生成一个输

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
部署推理服务 - AI开发平台ModelArts

如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化或使用SmoothQuant量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
部署推理服务 - AI开发平台ModelArts

如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化或使用SmoothQuant量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
非分离部署推理服务 - AI开发平台ModelArts

请删除.torchair_cache文件夹，避免由于缓存文件与实际推理不匹配而报错。若要使用eagle投机，配置环境变量，使eagle投机对齐实验室版本实现。目前默认开启此模式，若不开启，目前vllm0.6.0版本与实验室版本权重无法对齐，会导致小模型精度问题。 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
部署推理服务 - AI开发平台ModelArts

DETAIL_TIME_LOG #关闭打印详细日志配置后重启服务生效。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
非分离部署推理服务 - AI开发平台ModelArts

请删除.torchair_cache文件夹，避免由于缓存文件与实际推理不匹配而报错。若要使用eagle投机，配置环境变量，使eagle投机对齐论文版本实现。目前默认开启此模式，若不开启，目前vllm0.6.0版本与实验室版本权重无法对齐，会导致小模型精度问题。 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

请删除.torchair_cache文件夹，避免由于缓存文件与实际推理不匹配而报错。如果要使用eagle投机，配置环境变量，使eagle投机对齐论文版本实现。目前默认开启此模式，如果不开启，目前vllm0.6.3版本与实验室版本权重无法对齐，会导致小模型精度问题。 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

rch基础镜像，安装pytorch 1.8、ffmpeg 3和gcc 8，构建一个面向AI开发的新环境。主要流程如下图所示：图1 构建与调测镜像流程本案例适用于华为云-北京四Region。 Notebook自定义镜像规范制作自定义镜像时，Base镜像需满足如下规范：基于

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook

总条数： 856

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

分离部署推理服务 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

将模型部署为批量推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线