搜索_华为云

使用GPTQ量化 - AI开发平台ModelArts

内容如下： { "bits": 8, "group_size": -1, "desc_act": false } 2. 启动vLLM，如果是使用命令行的方式，指定--quantization "gptq"参数，其他参数请参考Step3 创建服务启动脚本 python

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

内容如下： { "bits": 8, "group_size": -1, "desc_act": false } 2. 启动vLLM，如果是使用命令行的方式，指定--quantization "gptq"参数，其他参数请参考步骤六启动推理服务 python

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

内容如下： { "bits": 8, "group_size": -1, "desc_act": false } 2. 启动vLLM，如果是使用命令行的方式，指定--quantization "gptq"参数，其他参数请参考Step3 启动推理服务 python

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
查询模型runtime - AI开发平台ModelArts

s 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID。表2 Query参数参数是否必选参数类型描述 limit 否 String 每页显示的条目数量。 offset 否 String 偏移量

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
使用GPTQ量化 - AI开发平台ModelArts

内容如下： { "bits": 8, "group_size": -1, "desc_act": false } 2. 启动vLLM，如果是使用命令行的方式，指定--quantization "gptq"参数，其他参数请参考Step3 创建服务启动脚本 python

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
创建ModelArts数据集 - AI开发平台ModelArts

持的标注格式及其说明请参见不同类型数据集支持的功能列表。图3 数据来源选择本地上传图4 数据来源选择本地上传更多参数填写请参见表2。表2 数据集的详细参数参数名称说明导入路径选择需要导入数据的OBS路径，此位置会作为数据集的数据存储路径。说明： “导入路径”不支

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
获取API授权关系列表 - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务ID。 api_id 是 String API编号。表2 Query参数参数是否必选参数类型描述 limit 否 String 分页展示时，一页展示多少项。默认为1000。 offset 否

 帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
通过APP认证的方式访问在线服务 - AI开发平台ModelArts

使用创建的“AppKey/AppSecret”或“AppCode”调用服务的支持APP认证的接口。 APP认证的服务授权给应用后，需要1-2分钟生效。在线服务授权管理如果您需要使用支持APP认证功能，建议您在部署在线服务之前进行授权管理操作完成应用创建。进入“模型部署 > 在

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
API概览 - AI开发平台ModelArts
API概览 - AI开发平台ModelArts

查询Workflow待办事项获取Workflow待办列表。在线服务鉴权计费工作流在线主服务鉴权。创建在线服务包计费工作流购买资源。表2 WorkflowExecution API 说明获取Execution列表查询Workflow下的执行记录列表。新建Workflow执行

 帮助中心 > AI开发平台ModelArts > API参考
在JupyterLab使用Git克隆代码仓 - AI开发平台ModelArts

on-examplesitHub，单击，输入仓库地址，单击确定后即开始克隆，克隆完成后，JupyterLab左侧导航出现代码库文件夹。图2 使用git插件克隆GitHub的开源代码仓库克隆GitHub的私有仓库克隆GitHub私有仓库时，会弹出输入个人凭证的对话框，如下图。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
Ascend-vLLM介绍 - AI开发平台ModelArts

一次调度多次推理，降低调度上的cpu-overhead。量化 W4A16-AWQ、GPTQ 权重Int4量化，降低显存消耗和时延。小并发时延提升80%，精度损失2%以内。 W8A8-smoothQuant 权重Int8量化，降低显存消耗，吞吐提升30%；精度损失1.5%以内。 W8A16-GPTQ I

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
Ascend-vLLM介绍 - AI开发平台ModelArts

一次调度多次推理，降低调度上的cpu-overhead。量化 W4A16-AWQ、GPTQ 权重Int4量化，降低显存消耗和时延。小并发时延提升80%，精度损失2%以内。 W8A8-smoothQuant 权重Int8量化，降低显存消耗，吞吐提升30%；精度损失1.5%以内。 W8A16-GPTQ I

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901）
准备文本分类数据 - AI开发平台ModelArts

类型自动学习项目的数据集要求。在上传数据时，请选择非加密桶进行上传，否则会由于加密桶无法解密导致后期的训练失败。用于训练的文本，至少有2种以上的分类，每种分类样本数据数不少20行。创建数据集数据准备完成后，需要创建相应项目支持的类型的数据集，具体操作请参考创建ModelArts数据集。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
创建AI应用 - AI开发平台ModelArts

路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
获取Execution列表 - AI开发平台ModelArts

Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/workflows/{workflow_id}/executions 表1 路径参数参数是否必选参数类型描述

 帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
使用Notebook进行代码调试 - AI开发平台ModelArts

默认开启，且默认值为“1小时”，表示该Notebook实例将在运行1小时之后自动停止，即1小时后停止规格资源计费。开启自动停止功能后，可选择“1小时”、“2小时”、“4小时”、“6小时”或“自定义”几种模式。选择“自定义”模式时，可指定1~24小时范围内任意整数。填写Notebook详细参数，如镜像、资源规格等。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
创建Workflow训练作业节点 - AI开发平台ModelArts

格自行选择： 1. modelarts.pool.visual.xlarge 对应1卡 2. modelarts.pool.visual.2xlarge 对应2卡 3. modelarts.pool.visual.4xlarge 对应4卡 4. modelarts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
创建和修改工作空间 - AI开发平台ModelArts

QExDTALBglghkgBZQMEAgEwgXXXXXX... 其中，加粗的斜体字段需要根据实际值填写，“workspace_id”为2获取的工作空间ID。返回状态码“200 OK”，响应Body如下所示： { "id": "f3deca1406da4910a50f3919940b9bda"

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
Standard支持的AI框架 - AI开发平台ModelArts

1-py_3.9-euler_2.10.7-aarch64-snt3p Ascend snt3p Notebook、训练、推理部署华北-北京四表2 PyTorch 预置镜像适配芯片适用范围适用区域 pytorch_2.1.0-cann_8.0.rc1-py_3.9-euler_2

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
新建Workflow Execution - AI开发平台ModelArts

Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/workflows/{workflow_id}/executions 表1 路径参数参数是否必选参数类型描述

 帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理

总条数： 1147

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

查询模型runtime - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

创建ModelArts数据集 - AI开发平台ModelArts

获取API授权关系列表 - AI开发平台ModelArts

通过APP认证的方式访问在线服务 - AI开发平台ModelArts

API概览 - AI开发平台ModelArts

在JupyterLab使用Git克隆代码仓 - AI开发平台ModelArts

Ascend-vLLM介绍 - AI开发平台ModelArts

Ascend-vLLM介绍 - AI开发平台ModelArts

准备文本分类数据 - AI开发平台ModelArts

创建AI应用 - AI开发平台ModelArts

获取Execution列表 - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

创建Workflow训练作业节点 - AI开发平台ModelArts

创建和修改工作空间 - AI开发平台ModelArts

Standard支持的AI框架 - AI开发平台ModelArts

新建Workflow Execution - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线