搜索_华为云

AI Gallery（新版） - AI开发平台ModelArts

发布和管理AI Gallery镜像发布和管理AI Gallery中的AI应用使用AI Gallery微调大师训练模型使用AI Gallery在线推理服务部署模型 Gallery CLI配置工具指南计算规格说明

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery）
AI Gallery使用流程 - AI开发平台ModelArts

见将AI Gallery中的模型部署为AI应用。发布后的资产，可通过微调大师训练模型和在线推理服务部署模型，具体可参见使用AI Gallery微调大师训练模型、使用AI Gallery在线推理服务部署模型。图1 AI Gallery使用流程 AI Gallery也支持管理从M

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
查询服务列表 - AI开发平台ModelArts

finished：只有批量服务会有这个状态，表示运行完成。 stopping: 停止中。 deleting: 删除中。 pending: 待启动，仅在线有这个状态。 waiting: 资源排队中，仅在线服务有这个状态。 offset 否 Integer 分页列表的起始页，默认为0。 limit 否 Integer

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

支持3条。 “部署类型” 选择此模型支持部署服务的类型，部署上线时只支持部署为此处选择的部署类型，例如此处只选择在线服务，那您导入后只能部署为在线服务。当前支持“在线服务”、“批量服务”和“边缘服务”。确认信息填写无误，单击“立即创建”，完成模型的创建。在模型列表中，您可以查

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
计费概述 - AI开发平台ModelArts
计费概述 - AI开发平台ModelArts

具体计费请以ModelArts价格计算器中的价格为准。 ModelArts Standard专属资源池、自动学习、Workflow、Notebook、训练作业、在线/批量/边缘服务 ModelArts Lite Cluster资源池 ModelArts弹性集群Server ModelArts Studio（MAAS）

帮助中心 > AI开发平台ModelArts > 计费说明
解析Manifest文件 - AI开发平台ModelArts

标注属性请见表4。 usage String 用途，可选值为TRAIN、EVAL、TEST、INFERENCE。指明该对象用于训练、评估、测试、推理，如果没有给出该字段，则使用者自行决定如何使用该对象。 inference_loc String 当此Manifest文件由推理服务

 帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > Manifest管理
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
约束与限制 - AI开发平台ModelArts

一个账号最多创建10个Notebook。否更多信息，请参见创建Notebook实例。 Standard推理部署在线服务单个账号最多可创建20个在线服务。是提交工单申请提升配额更多信息，请参见部署在线服务。 Standard推理部署批量服务单个账号最多可创建1000个批量服务。否更多信息，请参见部署批量服务。

帮助中心 > AI开发平台ModelArts > 产品介绍
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
ModelArts Standard资源监控概述 - AI开发平台ModelArts

Standard训练作业：用户在运行训练作业时，可以查看训练作业占用的CPU、GPU或NPU资源使用情况。具体请参见训练资源监控章节。 Standard在线服务：用户将模型部署为在线服务后，可以通过监控功能查看该推理服务的CPU、内存或GPU等资源使用统计信息和模型调用次数统计，具体参见查看推理服务详情章节。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
查询模型runtime - AI开发平台ModelArts

04-x86_64 request_mode Array of strings 请求模式，AI引擎支持部署为同步在线服务或异步在线服务。 sync：同步在线服务 async：异步在线服务 accelerators Array of Accelerator objects AI引擎可使用的加速卡。

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
使用kv-cache-int8量化 - AI开发平台ModelArts

--quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
部署推理服务 - AI开发平台ModelArts

(Press CTRL+C to quit) Step7 推理请求使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。方式一：通过OpenAI服务API接口启动服务使用以下推理测试命令。${docker_ip}替换为实际宿主机的IP地址。${containe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
免费体验MaaS预置服务 - AI开发平台ModelArts

在“模型部署”页面的“预置服务”页签，任选以下方式免费体验预置服务。方式一：在“模型体验”页面进行推理。在目标服务右侧，单击操作列的“在线体验”，跳转到“模型体验”页面，在右上角单击“参数设置”，按需配置相关参数，即可开始问答体验。操作指导请参见在MaaS体验模型服务。表1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

单击操作列“部署>在线服务”，将模型部署为在线服务。图6 部署在线服务在“部署”页面，参考下图填写参数，然后根据界面提示完成在线服务创建。本案例适用于CPU规格，节点规格需选择CPU。如果有免费CPU规格，可选择免费规格进行部署（每名用户限部署一个免费的在线服务，如果您已经部

 帮助中心 > AI开发平台ModelArts > 快速入门

总条数： 506

上一页
1
...
16
17
18
...
26
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

AI Gallery（新版） - AI开发平台ModelArts

AI Gallery使用流程 - AI开发平台ModelArts

查询服务列表 - AI开发平台ModelArts

从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

计费概述 - AI开发平台ModelArts

解析Manifest文件 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

ModelArts Standard资源监控概述 - AI开发平台ModelArts

查询模型runtime - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

免费体验MaaS预置服务 - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线