搜索_华为云

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。若需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。在推理生产环境中部署推理服务介绍如何在创建AI应用，部署并启动推理服务，在线预测在线服务。父主题：主流开源大模型基于Standard适配PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。以llama2-13b为例，NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
ModelArts支持将模型部署为哪些类型的服务？ - AI开发平台ModelArts

ModelArts支持将模型部署为哪些类型的服务？支持在线服务、批量服务和边缘服务。父主题：功能咨询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 功能咨询
服务管理概述 - AI开发平台ModelArts

服务管理概述服务管理，包括将已创建成功的模型部署为在线服务或本地服务。可以实现在线预测、本地预测、服务详情查询、查看服务日志等功能。这里的在线服务包括“predictor”和“transformer”两类，都包括下文描述的功能，本章节以“predictor”服务为例进行说明。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linux内核模块，它允许支持P2P(Peer-to-Peer)的NVIDIA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
日志提示“root: XXX valid number is 0” - AI开发平台ModelArts

XXX valid number is 0” 问题现象日志提示“root: XXX valid number is 0”，表示训练集/验证集/测试集的有效样本量为0，例如： INFO: root: Train valid number is 0. INFO: root: Eval valid

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
停止计费 - AI开发平台ModelArts
停止计费 - AI开发平台ModelArts

flow、开发环境、模型训练、在线服务、专属资源池涉及到需要停止的计费项如下：自动学习：停止因运行自动学习作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 Workflow：停止因运行Workflow作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。

帮助中心 > AI开发平台ModelArts > 计费说明
使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

示模型可以使用。步骤三：使用订阅模型部署在线服务模型订阅成功后，可将此模型部署为在线服务在展开的版本列表中，单击“部署 > 在线服务”跳转至部署页面。图2 部署模型在部署页面，参考如下说明填写关键参数。 “名称”：自定义一个在线服务的名称，也可以使用默认值，此处以“商超商品识别服务”为例。

帮助中心 > AI开发平台ModelArts > 快速入门
部署上线失败 - AI开发平台ModelArts

出现此问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新部署在线服务。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取服务ID。进入“部署上线>在线服务”页面，在服务列表中找到自动学习任务中部署的在线服务，自动学习部署的服务都是以“exeML-”开头的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 部署上线
使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

绪”时表示模型可以使用。步骤3：使用订阅模型部署在线服务模型订阅成功后，可将此模型部署为在线服务在展开的版本列表中，单击“部署 > 在线服务”跳转至部署页面。在部署页面，参考如下说明填写关键参数。 “名称”：自定义一个在线服务的名称，也可以使用默认值，此处以“商超商品识别服务”为例。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
在推理生产环境中部署推理服务 - AI开发平台ModelArts

型大于60G，请提工单扩容。 Step3 部署在线服务将Step2 部署模型中创建的AI应用部署为一个在线服务，用于推理调用。在ModelArts控制台，单击“部署上线 > 在线服务 > 部署”，开始部署在线服务。图5 部署在线服务设置部署服务名称，选择Step2 部署模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
自动学习训练后的模型是否可以下载？ - AI开发平台ModelArts

自动学习训练后的模型是否可以下载？不可以下载。但是您可以在AI应用管理页面查看，或者将此模型部署为在线服务。父主题：模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
ModelArts如何通过标签实现资源分组管理 - AI开发平台ModelArts

可以在创建训练作业页面添加标签，也可以在已经创建完成的训练作业详情页面的“标签”页签中添加标签。在ModelArts的在线服务中添加标签。可以在创建在线服务页面添加标签，也可以在已经创建完成的在线服务详情页面的“标签”页签中添加标签。在ModelArts的专属资源池中添加标签。可以在创建弹性

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题

总条数： 503

上一页
1
...
8
9
10
...
26
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

ModelArts支持将模型部署为哪些类型的服务？ - AI开发平台ModelArts

服务管理概述 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

日志提示“root: XXX valid number is 0” - AI开发平台ModelArts

停止计费 - AI开发平台ModelArts

使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

部署上线失败 - AI开发平台ModelArts

使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

自动学习训练后的模型是否可以下载？ - AI开发平台ModelArts

ModelArts如何通过标签实现资源分组管理 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线