搜索_华为云

通过Token认证的方式访问在线服务 - AI开发平台ModelArts

通过Token认证的方式访问在线服务如果在线服务的状态处于“运行中”，则表示在线服务已部署成功，部署成功的在线服务，将为用户提供一个可调用的API，此API为标准Restful API。在集成至生产环境之前，需要对此API进行调测，您可以使用以下方式向在线服务发起预测请求：方

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
创建API - AI开发平台ModelArts
创建API - AI开发平台ModelArts

参数类型描述 service_id 是 String API所属的服务ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
使用kv-cache-int8量化 - AI开发平台ModelArts

如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。 per-tensor+per-head静态量化场景如需使用该场景量化方法，请自行准备kv-cache量化系数，格式和per-tensor静态量化所需的2. 抽取kv-cache量化系数生成的json文件一致，只

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
ModelArts最佳实践案例列表 - AI开发平台ModelArts

ModelArts最佳实践案例列表在最佳实践文档中，提供了针对多种场景、多种AI引擎的ModelArts案例，方便您通过如下案例快速了解使用ModelArts完成AI开发的流程和操作。 LLM大语言模型训练推理场景样例场景说明主流开源大模型基于DevServer适配ModelLink

帮助中心 > AI开发平台ModelArts > 最佳实践
查询节点池的节点列表 - AI开发平台ModelArts

ool_name}/nodes 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 nodepool_name 是 String 节点池名称。

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
查询资源规格列表 - AI开发平台ModelArts

/v1/{project_id}/resourceflavors 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 continue 否 String 分页查询时上一页位置。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询节点列表 - AI开发平台ModelArts

ool_name}/nodes 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。表2 Query参数参数是否必选参数类型描述 continue

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

行推理业务，2张卡运行的情况下，推荐的最大序列max-model-len长度最大是16K，此处的单位K是1024，即16*1024。测试方法：gpu-memory-utilization为0.9下，以4k、8k、16k递增max-model-len，直至达到能执行静态bench

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

行推理业务，2张卡运行的情况下，推荐的最大序列max-model-len长度最大是16K，此处的单位K是1024，即16*1024。测试方法：gpu-memory-utilization为0.9下，以4k、8k、16k递增max-model-len，直至达到能执行静态bench

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

行推理业务，2张卡运行的情况下，推荐的最大序列max-model-len长度最大是16K，此处的单位K是1024，即16*1024。测试方法：gpu-memory-utilization为0.9下，以4k、8k、16k递增max-model-len，直至达到能执行静态bench

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

行推理业务，2张卡运行的情况下，推荐的最大序列max-model-len长度最大是16K，此处的单位K是1024，即16*1024。测试方法：gpu-memory-utilization为0.9下，以4k、8k、16k递增max-model-len，直至达到能执行静态bench

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911）
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

行推理业务，2张卡运行的情况下，推荐的最大序列max-model-len长度最大是16K，此处的单位K是1024，即16*1024。测试方法：gpu-memory-utilization为0.9下，以4k、8k、16k递增max-model-len，直至达到能执行静态bench

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
更新资源池 - AI开发平台ModelArts

/v2/{project_id}/pools/{pool_name} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 系统生成的资源池名称。请求参数表2 请求Header参数参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
Bert基于DevServer适配MindSpore Lite 推理指导(6.3.910) - AI开发平台ModelArts

300;350,350,350;400,400,400;450,450,450;512,512,512" 其中input_shape中的-1表示设置动态seq_len，ge.dynamicDims表示支持的seq_len值，可根据实际业务场景选取要支持的seq_len，上面的配置表示模型的三个输入shape支持[1

帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
查询事件列表 - AI开发平台ModelArts

/v1/{project_id}/events 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 resource 是 String 事件所属资源类型。可选值为pools，表示资源池。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

行推理业务，2张卡运行的情况下，推荐的最大序列max-model-len长度最大是16K，此处的单位K是1024，即16*1024。测试方法：gpu-memory-utilization为0.9下，以4k、8k、16k递增max-model-len，直至达到能执行静态bench

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
查询支持的服务部署规格 - AI开发平台ModelArts

/specifications 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 is_personal_cluster 否 Boolean

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
MoXing进阶用法的样例代码 - AI开发平台ModelArts

后将文件关闭。为了防止忘记文件关闭操作，推荐使用with语句，在with语句退出时会自动调用mox.file.File对象的close()方法： 1 2 3 import moxing as mox with mox.file.File('obs://bucket_name/obs_file

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
查询数据集导入任务的详情 - AI开发平台ModelArts

是否必选参数类型描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 task_id 是 String 任务ID。请求参数无响应参数状态码： 200 表2 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询数据集的统计信息 - AI开发平台ModelArts

是否必选参数类型描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 email 否 String 标注团队成员邮箱。 locale

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）

总条数： 1452

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

通过Token认证的方式访问在线服务 - AI开发平台ModelArts

创建API - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

ModelArts最佳实践案例列表 - AI开发平台ModelArts

查询节点池的节点列表 - AI开发平台ModelArts

查询资源规格列表 - AI开发平台ModelArts

查询节点列表 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

更新资源池 - AI开发平台ModelArts

Bert基于DevServer适配MindSpore Lite 推理指导(6.3.910) - AI开发平台ModelArts

查询事件列表 - AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明 - AI开发平台ModelArts

查询支持的服务部署规格 - AI开发平台ModelArts

MoXing进阶用法的样例代码 - AI开发平台ModelArts

查询数据集导入任务的详情 - AI开发平台ModelArts

查询数据集的统计信息 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线