搜索_华为云

各模型支持的最小卡数和最大序列 - AI开发平台ModelArts

各模型支持的最小卡数和最大序列基于vLLM（v0.6.3）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 附录
推理性能测试 - AI开发平台ModelArts

--backend：服务类型，支持tgi、vllm、mindspore、openai等。本文档使用的推理接口是vllm。 --host：服务IP地址，如127.0.0.1。 --port：服务端口，和推理服务端口8080。 --url：若以vllm接口方式启动服务，API接口公网地

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

序列说明基于vLLM（v0.5.0）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

序列说明基于vLLM（v0.5.0）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

序列说明基于vLLM（v0.6.0）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

序列说明基于vLLM（v0.6.0）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
在MaaS中创建模型 - AI开发平台ModelArts

Studio大模型即服务平台使用基础模型创建个人专属模型。场景描述 MaaS提供了基于昇腾云算力适配的开源大模型，您可以使用这些基础模型，结合推荐的模型权重文件或自定义的模型权重文件，创建个人专属的模型。创建成功的模型可以在ModelArts Studio大模型即服务平台进行调优、压缩、推理等操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

序列说明基于vLLM（v0.5.0）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
创建APP - AI开发平台ModelArts
创建APP - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。请求参数表2 请求Header参数参数是否必选参数类型描述 Content-Type 否 String 消息体的类型。设置为text/plain，返回临时预览链接。设置为application/octet-stream，返回临时下载链接。 X-Auth-Token

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
删除AppCode - AI开发平台ModelArts
删除AppCode - AI开发平台ModelArts

空间，以实际取值为准。请求参数表3 请求Header参数参数是否必选参数类型描述 Content-Type 否 String 消息体的类型。设置为text/plain，返回临时预览链接。设置为application/octet-stream，返回临时下载链接。 X-Auth-Token

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
查询APP详情 - AI开发平台ModelArts

Boolean 是否明文展示。请求参数表3 请求Header参数参数是否必选参数类型描述 Content-Type 否 String 消息体的类型。设置为text/plain，返回临时预览链接。设置为application/octet-stream，返回临时下载链接。 X-Auth-Token

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
自定义模型规范 - AI开发平台ModelArts

托管其他任务类型的模型，其他任务类型的模型被称为自定义模型。但是托管的自定义模型要满足规范才支持使用AI Gallery工具链服务（微调大师、在线推理服务）。自定义模型的使用流程托管模型到AI Gallery。模型基础设置里的“任务类型”选择除“文本问答”和“文本生成”之外的类型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
使用AI Gallery的订阅算法实现花卉识别 - AI开发平台ModelArts

6-gpu"。修改完成后，重新执行导入模型和部署为在线服务的操作。参数设置完成后，单击“下一步”，确认规格参数，单击“提交”，完成在线服务的部署。您可以进入“模型部署 > 在线服务”页面，等待服务部署完成，当服务状态变为“运行中”时，表示服务部署成功。预计时长2分钟左右。在线服务部署完成后，您可以单击操

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
创建AI应用 - AI开发平台ModelArts

请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。表3 请求Body参数参数是否必选参数类型描述 model_docs

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
订阅的模型一直处于等待同步状态 - AI开发平台ModelArts

原因分析订阅的模型一直处于等待同步状态，可能原因如下：由于ModelArts的数据存储、模型导入以及部署上线等功能依赖OBS、SWR等服务，需获取依赖服务的授权后，才能正常使用ModelArts的相关功能。您未被授权执行该操作。执行同步操作时报错：ModelArts.0108: 您未被授权执行该操作。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

个人用户快速配置ModelArts访问权限 ModelArts使用过程中涉及到OBS、SWR等服务交互，需要用户配置委托授权，允许ModelArts访问这些依赖服务。如果没有授权，ModelArts的部分功能将不能正常使用。约束与限制只有主账号可以使用委托授权，可以为当前账号

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
ModelArts统一镜像列表 - AI开发平台ModelArts

统一镜像列表 ModelArts提供了ARM+Ascend规格的统一镜像，包括MindSpore、PyTorch。适用于开发环境，模型训练，服务部署，请参考统一镜像列表。表1 MindSpore 预置镜像适配芯片适用范围 mindspore_2.3.0-cann_8.0.rc1-py_3

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志 - AI开发平台ModelArts

分推理代码实现自己的推理逻辑，出现故障后希望通过故障日志排查定位故障原因，但是通过logger打印日志无法在“在线服务”的日志中查看到部分内容。原因分析推理服务的日志如果需要显示出来，需要代码中将日志打印到Console控制台。当前推理基础镜像使用的python的log模块，

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

序列说明基于vLLM（v0.5.0）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
给子账号配置部署上线基本使用权限 - AI开发平台ModelArts

按需配置。边缘服务 CES ces:metricData:list 查看服务的监控指标。按需配置。 IEF IEF Administrator 管理边缘服务。按需配置。创建自定义策略时，建议将项目级云服务和全局级云服务拆分为两条策略，便于授权时设置最小授权范围。委托表3 部署上线所需委托

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践

总条数： 1586

上一页
1
...
33
34
35
...
80
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

各模型支持的最小卡数和最大序列 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

创建APP - AI开发平台ModelArts

删除AppCode - AI开发平台ModelArts

查询APP详情 - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

使用AI Gallery的订阅算法实现花卉识别 - AI开发平台ModelArts

创建AI应用 - AI开发平台ModelArts

订阅的模型一直处于等待同步状态 - AI开发平台ModelArts

个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

ModelArts统一镜像列表 - AI开发平台ModelArts

通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

给子账号配置部署上线基本使用权限 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线