搜索_华为云

非分离部署推理服务 - AI开发平台ModelArts

如果需要增加模型量化功能，启动推理服务前，先参考使用AWQ量化、使用SmoothQuant量化或使用GPTQ量化章节对模型做量化处理启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

成的开发环境保存成一个镜像。方式一：保存镜像需要指定镜像名称、镜像标签、SWR服务的组织等信息，保存镜像需要等待几分钟时间，期间不能对Notebook有额外操作。 SWR服务的组织可以在SWR服务中进行创建，也可以使用SDK创建默认的SWR组织，默认最多只能创建5个组织。在“

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
删除开发环境实例 - AI开发平台ModelArts

是 String 用户项目ID。获取方法请参见获取项目ID和名称。 instance_id 是 String 实例ID。请求消息无请求参数。响应消息响应参数如表2所示。表2 响应参数参数参数类型说明 instance_id String 实例ID。请求示例如下

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
删除DevServer实例 - AI开发平台ModelArts

EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。 category String 服务器归属类型。 HPS：超节点服务器 SPOD：整柜服务器 SERVER：单台服务器 server_hps ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

表1 请求服务参数说明参数是否必选默认值参数类型描述 model 是无 Str 通过OpenAI服务API接口启动服务时，推理请求必须填写此参数。取值必须和启动推理服务时的model ${model_path}参数保持一致。通过vLLM服务API接口启动服务时，推理请求不涉及此参数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
停止训练作业版本 - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。 version_id 是 Long 训练作业的版本ID。请求消息无请求参数。响应消息响应参数如表2所示。表2 响应参数参数参数类型说明 is_success Boolean 请求是否成功。 error_message

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
创建DevServer - AI开发平台ModelArts

EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。 category String 服务器归属类型。 HPS：超节点服务器 SPOD：整柜服务器 SERVER：单台服务器 server_hps ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
管理开发环境实例 - AI开发平台ModelArts

project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 instance_id 是 String 实例ID。请求消息请求参数如表2所示。表2 请求参数参数是否必选参数类型说明。 action 是 String 操作开发环境实例，支持： start

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
启动DevServer实例 - AI开发平台ModelArts

EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。 category String 服务器归属类型。 HPS：超节点服务器 SPOD：整柜服务器 SERVER：单台服务器 server_hps ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
查询专属资源池作业列表 - AI开发平台ModelArts

Query参数参数是否必选参数类型描述 type 否 String 作业所属业务。可选值如下： train：训练作业 infer：推理服务 notebook：Notebook作业 status 否 String 作业状态。可选值如下： Queue：排队中 Pending：等待中

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
停止DevServer实例 - AI开发平台ModelArts

EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。 category String 服务器归属类型。 HPS：超节点服务器 SPOD：整柜服务器 SERVER：单台服务器 server_hps ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
删除APP - AI开发平台ModelArts
删除APP - AI开发平台ModelArts

空间，以实际取值为准。请求参数表3 请求Header参数参数是否必选参数类型描述 Content-Type 否 String 消息体的类型。设置为text/plain，返回临时预览链接。设置为application/octet-stream，返回临时下载链接。 X-Auth-Token

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
使用AWQ量化 - AI开发平台ModelArts

5-72B-Chat-AWQ 参数说明： model：模型路径。 Step4 启动AWQ量化服务参考部署推理服务，使用量化后权重部署AWQ量化服务。注：Step3 创建服务启动脚本启动脚本中，服务启动命令需添加如下命令。 -q awq 或者--quantization awq 父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
发布本地AI应用到AI Gallery - AI开发平台ModelArts

在“运行时长控制”选择是否指定运行时长。不限时长：不限制作业的运行时长，AI Gallery工具链服务部署完成后将一直处于“运行中”。指定时长：设置作业运行几小时后停止，当AI Gallery工具链服务运行时长达到指定时长时，系统将会暂停作业。时长设置不能超过计算资源的剩余额度。说明：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
删除训练作业版本 - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。 version_id 是 Long 训练作业的版本ID。请求消息无请求参数。响应消息响应参数如表2所示。表2 响应参数参数参数类型说明 is_success Boolean 请求是否成功。 error_message

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
删除训练作业参数 - AI开发平台ModelArts

String 用户项目ID。获取方法请参见获取项目ID和名称。 config_name 是 String 训练作业参数的名称。请求消息无请求参数。响应消息响应参数如表2所示。表2 响应参数参数参数类型说明 is_success Boolean 请求是否成功。 error_message

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
查询DevServer实例详情 - AI开发平台ModelArts

EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。 category String 服务器归属类型。 HPS：超节点服务器 SPOD：整柜服务器 SERVER：单台服务器 server_hps ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
停止可视化作业 - AI开发平台ModelArts

project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 String 可视化作业的ID。请求消息无请求参数。响应消息响应参数如表2所示。表2 响应参数参数类型说明 is_success Boolean 请求是否成功。 error_code

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
将模型部署为批量推理服务 - AI开发平台ModelArts

耗时几分钟到几十分钟不等。批量服务部署完成后，将立即启动，运行过程中将按照您选择的资源按需计费。您可以前往批量服务列表，查看批量服务的基本情况。在批量服务列表中，刚部署的服务“状态”为“部署中”，当批量服务的“状态”变为“运行完成”时，表示服务部署完成。 Manifest文件规范

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
分离部署推理服务 - AI开发平台ModelArts

USE_OPENAI：仅在服务入口实例生效，用于配置api-server服务是否使用openai服务，默认为1。当配置为1时，启动服务为openai服务；当配置为0时，启动服务为vllm服务。其中常见的参数如下： --host：服务部署的IP --port：服务部署的端口，注意如果不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务

总条数： 1686

上一页
1
...
20
21
22
...
85
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

非分离部署推理服务 - AI开发平台ModelArts

使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

删除开发环境实例 - AI开发平台ModelArts

删除DevServer实例 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

停止训练作业版本 - AI开发平台ModelArts

创建DevServer - AI开发平台ModelArts

管理开发环境实例 - AI开发平台ModelArts

启动DevServer实例 - AI开发平台ModelArts

查询专属资源池作业列表 - AI开发平台ModelArts

停止DevServer实例 - AI开发平台ModelArts

删除APP - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

发布本地AI应用到AI Gallery - AI开发平台ModelArts

删除训练作业版本 - AI开发平台ModelArts

删除训练作业参数 - AI开发平台ModelArts

查询DevServer实例详情 - AI开发平台ModelArts

停止可视化作业 - AI开发平台ModelArts

将模型部署为批量推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线