搜索_华为云

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

NPU卡编号可以通过命令npu-smi info查询。配置环境变量。 export DEFER_DECODE=1 # 是否使用推理与Token解码并行；默认值为1表示开启并行，取值为0表示关闭并行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
自动学习训练后的模型是否可以下载？ - AI开发平台ModelArts

自动学习训练后的模型是否可以下载？不可以下载。但是您可以在AI应用管理页面查看，或者将此模型部署为在线服务。父主题： Standard自动学习

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习
推理精度测试 - AI开发平台ModelArts

AscendCloud-3rdLLM-x.x.x.zip并解压，无需重复执行。进入benchmark_eval目录下，执行如下命令安装性能测试的关依赖。 pip install -r requirements.txt 执行精度测试启动脚本eval_test.py，具体操作命令如下，可以根据参数说明修改参数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
ModelArts线上训练得到的模型是否支持离线部署在本地？ - AI开发平台ModelArts

ModelArts线上训练得到的模型是否支持离线部署在本地？通过ModelArts预置算法训练得到的模型是保存在OBS桶里的，模型支持下载到本地。在训练作业列表找到需要下载模型的训练作业，单击名称进入详情页，获取训练输出路径。图1 获取训练输出位置单击“输出路径”，跳转至OBS对象路径，下载训练得到的模型。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

Step6 推理服务的高阶配置（可选）如需开启以下高阶配置，请在Step3 配置NPU环境时增加需要开启的高阶配置参数。词表切分在分布式场景下，默认不使用词表切分能提升推理性能，同时也会增加单卡的显存占用。不建议开启词表并行，如确需使用词表切分，配置以下环境变量。 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
身份认证与访问控制 - AI开发平台ModelArts

成何种形式，其本质都是通过ModelArts提供的REST风格的API接口进行请求。 ModelArts的接口均需要进行认证鉴权以此来判断是否通过身份认证。通过控制台发出的请求需要通过Token认证鉴权，调用API接口认证鉴权支持Token认证和AK/SK认证两种方式。访问控制

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
执行训练任务（历史版本） - AI开发平台ModelArts

b <exp_name>：实验名称，具体可以设置的值参考<cfgs_yaml_file> Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。输入指定的目录在训练开始时，平台会自动将指定的OBS路径下的文件copy到容器内

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

针对转换的模型运行时应用层适配。数据预处理。模型编排。模型裁剪。精度校验。精度对比误差统计工具。自动化精度对比工具。网络结构可视化工具。性能调优。性能测试。性能调优三板斧。性能分析与诊断。迁移测试报告。推理迁移验收表。 ModelArts开发环境 ModelArts作为华为云上的A

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
日志提示“root: XXX valid number is 0” - AI开发平台ModelArts

数据未标注。标注的数据是不符合规格的（如目标检测算法要求标注为矩形框，但是提供数据标注为非矩形框）。处理方法请您检查数据是否已标注，或检查数据标注是否符合算法要求。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
用户创建模型时构建镜像或导入文件失败 - AI开发平台ModelArts

object size from OBS failed！）。图1 下载obs文件失败用户创建模型时，事件提示：复制模型文件失败，请检查OBS权限是否正常（Failed to copy model file due to obs exception. Please Check your obs

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
附录：部署常见问题 - AI开发平台ModelArts

如何解决“Available shared memory size is not enough“的问题问题：容器共享内存不足解决方法：在启动docker的命令中增加“--shm-size=${memSize}“，其中memSize为要设置的共享内存大小，如2g。 --shm-size 2g \ 如何解

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

1”，注意编号不是填4、5。图2 查询结果配置环境变量。 export DEFER_DECODE=1 # 是否使用推理与Token解码并行；默认值为1表示开启并行，取值为0表示关闭并行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本方案支持的模型列表、对应的开源权重获取地址如表1所示。表1 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理是否支持W4A16量化是否支持W8A8量化是否支持 kv-cache-int8量化开源权重获取地址 1 llama-7b √ √ √ √ https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

否，提高训练作业使用的资源规格或者联系技术支持。重启训练作业，使用CloudShell登录训练容器监控内存指标，确认是否有突发性的内存增加现象。是，排查内存突发增加的时间点附近的训练作业日志，优化对应的代码逻辑，减少内存申请。否，提高训练作业使用的资源规格或者联系技术支持。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

1”，注意编号不是填4、5。图2 查询结果配置环境变量。 export DEFER_DECODE=1 # 是否使用推理与Token解码并行；默认值为1表示开启并行，取值为0表示关闭并行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

1”，注意编号不是填4、5。图2 查询结果配置环境变量。 export DEFER_DECODE=1 # 是否使用推理与Token解码并行；默认值为1表示开启并行，取值为0表示关闭并行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

0版本。不同vLLM版本支持的模型列表有差异，具体如表1所示。表1 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理是否支持W4A16量化是否支持W8A8量化是否支持 kv-cache-int8量化开源权重获取地址 1 llama-7b √ √ √ √ https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
AIGC工具tailor使用指导 - AI开发平台ModelArts

input_shape=data:[-1,3,224,224] dynamic_dims=[1],[2],[3] 表3 参数说明参数名称功能描述参数类型是否必填默认值备注 --model_path 指定onnx模型路径。 string 是 - - --config_path 指定模型配置文件路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
ModelArts最佳实践案例列表 - AI开发平台ModelArts

训练后的模型可用于推理部署，搭建大模型问答助手。主流开源大模型基于DevServer适配PyTorch NPU推理指导推理部署、推理性能测试、推理精度测试、推理模型量化介绍主流的开源大模型Llama系列、Qwen系列、Yi系列、Baichuan系列、ChatGLM系列等基于ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

0版本。不同vLLM版本支持的模型列表有差异，具体如表1所示。表1 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理是否支持W4A16量化是否支持W8A8量化是否支持W8A16量化是否支持 kv-cache-int8量化开源权重获取地址 1 llama-7b √ √ √

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）

总条数： 1234

上一页
1
...
5
6
7
...
62
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

自动学习训练后的模型是否可以下载？ - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

ModelArts线上训练得到的模型是否支持离线部署在本地？ - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

身份认证与访问控制 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

简介 - AI开发平台ModelArts

日志提示“root: XXX valid number is 0” - AI开发平台ModelArts

用户创建模型时构建镜像或导入文件失败 - AI开发平台ModelArts

附录：部署常见问题 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

AIGC工具tailor使用指导 - AI开发平台ModelArts

ModelArts最佳实践案例列表 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线