搜索_华为云

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明基于vLLM（v0.5.0）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明基于vLLM（v0.6.0）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909）
Notebook专属预置镜像列表 - AI开发平台ModelArts

Gallery进行交流，停止实例（实例停止后CPU、Memory不再计费）等，提升用户体验。支持SSH远程连接功能：通过SSH连接启动实例，在本地调试就可以操作实例，方便调试。预置镜像支持功能开发：基于ModelArts预置镜像进行依赖安装配置后，保存为自定义镜像，能直接在ModelArts用于训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
启动DevServer实例 - AI开发平台ModelArts

EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。 category String 服务器归属类型。 HPS：超节点服务器 SPOD：整柜服务器 SERVER：单台服务器 server_hps ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
删除DevServer实例 - AI开发平台ModelArts

EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。 category String 服务器归属类型。 HPS：超节点服务器 SPOD：整柜服务器 SERVER：单台服务器 server_hps ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
停止DevServer实例 - AI开发平台ModelArts

EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。 category String 服务器归属类型。 HPS：超节点服务器 SPOD：整柜服务器 SERVER：单台服务器 server_hps ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
多模态模型推理性能测试 - AI开发平台ModelArts

--parallel-num：每轮并发数，支持多个，如 1 4 8 16 32。 --prompt-tokens：输入长度，支持多个，如 128 128 2048 2048，数量需和--output-tokens的数量对应。 --output-tokens：输出长度，支持多个，如 128 2048

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
多模态模型推理性能测试 - AI开发平台ModelArts

--parallel-num：每轮并发数，支持多个，如 1 4 8 16 32。 --prompt-tokens：输入长度，支持多个，如 128 128 2048 2048，数量需和--output-tokens的数量对应。 --output-tokens：输出长度，支持多个，如 128 2048

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理性能测试
多模态模型推理性能测试 - AI开发平台ModelArts

--parallel-num：每轮并发数，支持多个，如 1 4 8 16 32。 --prompt-tokens：输入长度，支持多个，如 128 128 2048 2048，数量需和--output-tokens的数量对应。 --output-tokens：输出长度，支持多个，如 128 2048

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理性能测试
ModelArts统一镜像列表 - AI开发平台ModelArts

ffmpeg g++ gcc git grep python3 rpm tar unzip wget zip 父主题： ModelArts支持的预置镜像列表

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

VSCode插件调试训练ResNet50图像分类模型应用场景 Notebook等线上开发工具工程化开发体验不如IDE，但是本地开发服务器等资源有限，运行和调试环境大多使用团队公共搭建的CPU或GPU服务器，并且是多人共用，这带来一定的环境搭建和维护成本。因此使用本地IDE+远程Notebook结合的方式，可

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
查询DevServer实例详情 - AI开发平台ModelArts

EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。 category String 服务器归属类型。 HPS：超节点服务器 SPOD：整柜服务器 SERVER：单台服务器 server_hps ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
快速开始 - AI开发平台ModelArts
快速开始 - AI开发平台ModelArts

快速开始 ModelArts SDK目前仅支持在ModelArts开发环境Notebook和本地PC两种环境使用。 ModelArts SDK不支持在训练作业和在线服务中使用。 ModelArts SDK已经集成在ModelArts开发环境Notebook中，可以直接使用，无需进行Session鉴权。

帮助中心 > AI开发平台ModelArts > SDK参考
创建DevServer - AI开发平台ModelArts

EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。 category String 服务器归属类型。 HPS：超节点服务器 SPOD：整柜服务器 SERVER：单台服务器 server_hps ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
约束与限制 - AI开发平台ModelArts

Lite Server使用裸金属服务器时，如果升级/修改操作系统内核或者驱动，很可能导致驱动和内核版本不兼容，从而导致OS无法启动，或者基本功能不可用。如果需要升级或修改，请联系华为云技术支持。 ModelArts Lite Server使用ECS服务器时不支持重装操作系统，部分区域使

 帮助中心 > AI开发平台ModelArts > 产品介绍
使用MaaS压缩模型 - AI开发平台ModelArts

场景 SmoothQuant-W8A8 长序列的场景大并发量的场景 AWQ-W4A16 小并发量的低时延场景更少推理卡数部署的场景约束限制表2列举了支持模型压缩的模型，不在表格里的模型不支持使用MaaS压缩模型。表2 支持模型压缩的模型模型名称 SmoothQuant-W8A8

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
ECS中上传新镜像 - AI开发平台ModelArts

ECS中上传新镜像 Step1 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图1 复制登录指令 Step2 修改并上传镜像在ECS服务器中输入登录指令后，使用下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
ECS中上传新镜像 - AI开发平台ModelArts

ECS中上传新镜像 Step1 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图1 复制登录指令 Step2 修改并上传镜像在ECS服务器中输入登录指令后，使用下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
安装Gallery CLI配置工具 - AI开发平台ModelArts

如果下载失败，单击“下载”可以重新下载。登录云服务器查看工具包是否下载成功。在云服务详情页面，单击节点页签的选择“前往控制台”跳转到云服务器控制台。在云服务器控制台的节点基本信息页面，单击右上角“远程登录”选择登录方式远程登录云服务器节点。推荐使用CloudShell登录，直接

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
什么是ModelArts - AI开发平台ModelArts

了多种访问方式。管理控制台方式 ModelArts Standard支持通过管理控制台访问，包含自动学习、数据管理、开发环境、模型训练、模型管理、部署上线等功能，您可以在管理控制台端到端完成您的AI开发。 ModelArts MAAS可以通过管理控制台访问，包括大模型数据生产、微调、提示词工程、应用编排等功能。

帮助中心 > AI开发平台ModelArts > 产品介绍

总条数： 1479

上一页
1
...
6
7
8
...
74
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

Notebook专属预置镜像列表 - AI开发平台ModelArts

启动DevServer实例 - AI开发平台ModelArts

删除DevServer实例 - AI开发平台ModelArts

停止DevServer实例 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

ModelArts统一镜像列表 - AI开发平台ModelArts

使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

查询DevServer实例详情 - AI开发平台ModelArts

快速开始 - AI开发平台ModelArts

创建DevServer - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

使用MaaS压缩模型 - AI开发平台ModelArts

ECS中上传新镜像 - AI开发平台ModelArts

ECS中上传新镜像 - AI开发平台ModelArts

安装Gallery CLI配置工具 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线