搜索_华为云

发布本地AI应用到AI Gallery - AI开发平台ModelArts

动”，完成订单信息确认后单击“确定”开始构建AI应用。当AI应用状态变为“运行中”时，表示启动成功。在AI应用详情页的“应用”页签，可以在线体验应用。父主题：发布和管理AI Gallery中的AI应用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
管理AI Gallery数据集 - AI开发平台ModelArts

、使用方法等信息。编辑完成后，单击“确认”保存修改。管理数据集文件预览文件在数据集详情页，选择“数据集文件”页签。单击文件名称即可在线预览文件内容。仅支持预览大小不超过10MB、格式为文本类或图片类的文件。下载文件在数据集详情页，选择“数据集文件”页签。单击操作列的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery数据集
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

//docs.vllm.ai/en/latest/getting_started/quickstart.html。以下服务启动介绍的是在线推理方式，离线推理请参见https://docs.vllm.ai/en/latest/getting_started/quickstart

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
订阅免费模型 - AI开发平台ModelArts

在“AI应用管理 > AI应用 > 我的订阅”页面，选择并展开订阅的目标模型。在版本列表单击“部署”，可以将订阅的ModelArts模型部署为“在线服务”、“批量服务”或“边缘服务”，详细操作步骤请参见部署服务。使用订阅的HiLens技能：在“产品订购 > 订单管理 > AI Ga

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
配置ModelArts委托授权 - AI开发平台ModelArts

s为用户自动创建委托并配置到ModelArts服务中。本章节主要介绍一键式自动授权方式。一键式自动授权方式支持给IAM子用户、联邦用户（虚拟IAM用户）、委托用户和所有用户授权。约束与限制华为云账号只有华为云账号可以使用委托授权，可以为当前账号授权，也可以为当前账号下的所有IAM用户授权。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 配置MaaS访问授权
使用AWQ量化 - AI开发平台ModelArts

Step3 权重格式离线转换（可选） AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
推理精度测试 - AI开发平台ModelArts

为离线测评，不需要启动推理服务，目前支持大语言模型。约束限制确保容器可以访问公网。使用opencompass工具需用vllm接口启动在线服务。当前的精度测试仅适用于语言模型精度验证，不适用于多模态模型的精度验证。多模态模型的精度验证，建议使用开源MME数据集和工具（GitHub

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
使用AWQ量化 - AI开发平台ModelArts

Step3 权重格式离线转换（可选） AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

Step3 权重格式离线转换（可选） AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
获取Workflow工作流列表 - AI开发平台ModelArts

dataset：数据集 obs：OBS swr：SWR model_list：AI应用列表 label_task：标注任务 service：在线服务 conditions Array of Constraint objects 数据约束条件。 value Map<String,Object>

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
依赖和委托 - AI开发平台ModelArts

业务场景依赖的服务委托授权项说明在线服务 LTS lts:groups:create lts:groups:list lts:topics:create lts:topics:delete lts:topics:list 建议配置，在线服务配置LTS日志上报。批量服务 OBS

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
获取Execution列表 - AI开发平台ModelArts

dataset：数据集 obs：OBS swr：SWR model_list：AI应用列表 label_task：标注任务 service：在线服务 conditions Array of Constraint objects 数据约束条件。 value Map<String,Object>

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
新建Workflow工作流 - AI开发平台ModelArts

dataset：数据集 obs：OBS swr：SWR model_list：AI应用列表 label_task：标注任务 service：在线服务 conditions 否 Array of Constraint objects 数据约束条件。 value 否 Map<String

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
推理精度测试 - AI开发平台ModelArts

为离线测评，不需要启动推理服务，目前支持大语言模型。约束限制确保容器可以访问公网。使用opencompass工具需用vllm接口启动在线服务。当前的精度测试仅适用于语言模型精度验证，不适用于多模态模型的精度验证。多模态模型的精度验证，建议使用开源MME数据集和工具（GitHub

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
查询Workflow工作流 - AI开发平台ModelArts

dataset：数据集 obs：OBS swr：SWR model_list：AI应用列表 label_task：标注任务 service：在线服务 conditions Array of Constraint objects 数据约束条件。 value Map<String,Object>

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
启动智能任务 - AI开发平台ModelArts

Integer 模型部署的实例数，即计算节点的个数。 model_id 否 String 模型ID。 specification 否 String 在线服务的资源规格。详见部署服务 weight 否 Integer 权重百分比，分配到此模型的流量权重；仅当infer_type为real-t

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
运行第一条Workflow - AI开发平台ModelArts

测试推理服务：工作流运行完成后，在服务部署节点右侧单击“实例详情”跳转至推理服务详情页。或者在ModelArts管理控制台，选择“部署上线>在线服务”，找到部署的推理服务，单击服务名称，进入服务详情页。单击“预测”，右边可查看预测结果。图6 预测样例图图7 预测结果父主题：使用Workflow实现低代码AI开发

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
使用ModelArts Studio的Qwen2-7B模型框架实现对话问答 - AI开发平台ModelArts

越大，生成文本的多样性就越高。 1 top_k 选择在模型的输出结果中选择概率最高的前K个结果。 20 在对话框中输入问题，查看返回结果，在线体验对话问答。图7 体验模型服务后续操作如果不再需要使用此模型服务，建议清除相关资源，避免产生不必要的费用。在MaaS服务的“模型

 帮助中心 > AI开发平台ModelArts > 快速入门
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

若需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。在推理生产环境中部署推理服务介绍如何创建AI应用，部署模型并启动推理服务，在线预测服务。父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
非分离部署推理服务 - AI开发平台ModelArts

//docs.vllm.ai/en/latest/getting_started/quickstart.html。以下服务启动介绍的是在线推理方式，离线推理请参见https://docs.vllm.ai/en/latest/getting_started/quickstart

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务

总条数： 385

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

发布本地AI应用到AI Gallery - AI开发平台ModelArts

管理AI Gallery数据集 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

订阅免费模型 - AI开发平台ModelArts

配置ModelArts委托授权 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

获取Workflow工作流列表 - AI开发平台ModelArts

依赖和委托 - AI开发平台ModelArts

获取Execution列表 - AI开发平台ModelArts

新建Workflow工作流 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

查询Workflow工作流 - AI开发平台ModelArts

启动智能任务 - AI开发平台ModelArts

运行第一条Workflow - AI开发平台ModelArts

使用ModelArts Studio的Qwen2-7B模型框架实现对话问答 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线