搜索_华为云

查询推理服务标签 - AI开发平台ModelArts

查询推理服务标签功能介绍查询当前项目下的推理服务标签，默认查询所有工作空间，无权限不返回标签数据。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
查询服务监控信息 - AI开发平台ModelArts

查询服务监控信息功能介绍查询服务监控信息。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services/{service_id

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
推理服务部署 - AI开发平台ModelArts

推理服务部署准备推理环境启动推理服务父主题：主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
推理服务精度评测 - AI开发平台ModelArts

推理服务精度评测本章节介绍了2种精度测评方式，分别为Lm-eval工具和MME工具。 lm-eval工具适用于语言模型的推理精度测试，数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等，该工具为离线测评，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
手动部署推理服务 - AI开发平台ModelArts

手动部署推理服务前提条件已经完成资源购买。约束限制脚本中的镜像是在西南-贵阳一区域，请在西南-贵阳一区域上部署推理服务。步骤一：检查环境 SSH登录机器后，检查NPU设备检查。如果驱动版本不是24.1.0，请先升级驱动和对应固件。 npu-smi info -t board

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。什么是分离部署大模型推理是自回归的过程，有以下两阶段： Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
在ModelArts的Notebook中如何获取本机外网IP？ - AI开发平台ModelArts

在ModelArts的Notebook中如何获取本机外网IP？本机的外网IP地址可以在主流搜索引擎中搜索“IP地址查询”获取。图1 查询外网IP地址父主题： Standard Notebook

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
Ascend-vLLM介绍 - AI开发平台ModelArts

Torch.compile Torch.dynamo构图，转ascend-GE后端推理；使用静态分档。实例复用 Multi-lora 多lora挂载，多个不同微调模型共用一份权重同时部署。控制输出 Guided Decoding 通过特定模式控制模型输出。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
ModelArts在线服务处于运行中时，如何填写request header和request body？ - AI开发平台ModelArts

ModelArts在线服务处于运行中时，如何填写request header和request body？问题现象部署在线服务完成且在线服务处于“运行中”状态时，通过ModelArts console的调用指南tab页签可以获取到推理请求的地址，但是不知道如何填写推理请求的header

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
查询服务监控信息 - AI开发平台ModelArts

查询服务监控信息查询当前服务对象监控信息。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式1：根据部署在线服务生成的服务对象进行查询服务监控 1 2 3 4 5 6 7 from

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
修改模型服务QPS - AI开发平台ModelArts

修改模型服务QPS 流量限制QPS是评估模型服务处理能力的关键指标，它指示系统在高并发场景下每秒能处理的请求量。这一指标直接关系到模型的响应速度和处理效率。不当的QPS配置可能导致用户等待时间延长，影响满意度。因此，能够灵活调整模型的QPS对于保障服务性能、优化用户体验、维持业务流畅及控制成本至关重要

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 管理我的服务
管理我的服务 - AI开发平台ModelArts

管理我的服务扩缩容模型服务实例数修改模型服务QPS 升级模型服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务本章节介绍如何使用vLLM 0.5.0框架部署并启动推理服务。什么是分离部署大模型推理是自回归的过程，有以下两阶段： Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。什么是分离部署大模型推理是自回归的过程，有以下两阶段： Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
昇腾云服务6.3.906版本说明 - AI开发平台ModelArts

昇腾云服务6.3.906版本说明本文档主要介绍昇腾云服务6.3.906版本配套的镜像地址、软件包获取方式和支持的特性能力。配套的基础镜像镜像地址获取方式配套关系镜像软件说明配套关系 PyTorch：西南-贵阳一 swr.cn-southwest-2.myhuaweicloud.com

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

自动高性能算子生成工具自动高性能算子生成工具AKG（Auto Kernel Generator），可以对深度神经网络模型中的算子进行优化，并提供特定模式下的算子自动融合功能，可提升在昇腾硬件后端上运行模型的性能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
ModelArts在线服务和边缘服务有什么区别？ - AI开发平台ModelArts

ModelArts在线服务和边缘服务有什么区别？在线服务将模型部署为一个Web服务，您可以通过管理控制台或者API接口访问在线服务。边缘服务云端服务是集中化的离终端设备较远，对于实时性要求高的计算需求，把计算放在云上会引起网络延时变长、网络拥塞、服务质量下降等问题。而终端设备通常计算能力不足

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
使用CTS审计ModelArts服务 - AI开发平台ModelArts

使用CTS审计ModelArts服务 ModelArts支持云审计的关键操作查看ModelArts相关审计日志

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
查询服务更新日志 - AI开发平台ModelArts

查询服务更新日志功能介绍查询实时服务更新日志。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services/{service_id

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
在MaaS体验模型服务 - AI开发平台ModelArts

在MaaS体验模型服务在ModelArts Studio大模型即服务平台，运行中的模型服务可以在“模型体验”页面在线体验模型服务的推理效果。前提条件在“模型部署”的服务列表存在“运行中”的模型服务。操作步骤登录ModelArts管理控制台，在左侧导航栏中，选择“ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）

总条数： 1731

上一页
1
...
4
5
6
...
87
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查询推理服务标签 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

推理服务部署 - AI开发平台ModelArts

推理服务精度评测 - AI开发平台ModelArts

手动部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

在ModelArts的Notebook中如何获取本机外网IP？ - AI开发平台ModelArts

Ascend-vLLM介绍 - AI开发平台ModelArts

ModelArts在线服务处于运行中时，如何填写request header和request body？ - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

修改模型服务QPS - AI开发平台ModelArts

管理我的服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

昇腾云服务6.3.906版本说明 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

ModelArts在线服务和边缘服务有什么区别？ - AI开发平台ModelArts

使用CTS审计ModelArts服务 - AI开发平台ModelArts

查询服务更新日志 - AI开发平台ModelArts

在MaaS体验模型服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线