搜索_华为云

多模态 - AI开发平台ModelArts
多模态 - AI开发平台ModelArts

--trust-remote-code 多模态推理服务启动模板参数说明如下（其余参数设置参考4.2启动推理服务基础参数说明）： VLLM_IMAGE_FETCH_TIMEOUT：图片下载时间环境变量。 VLLM_ENGINE_ITERATION_TIMEOUT_S：服务间隔最大时长，超过会报timeout错误。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
查询支持的镜像列表 - AI开发平台ModelArts

service_type 否 String 镜像支持服务类型。枚举值如下： COMMON：通用镜像。 INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 sort_dir 否

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

"} 因APIG（API网关）限制，平台每次请求预测的时间不超过40秒。数据从平台发送到服务，服务预测推理，再将结果返回的时间不超过限制，可以成功返回预测结果。当服务预测的时间过长或者频繁预测导致服务接收不过来请求，即会出现该报错。可以通过以下方式解决问题：服务预测请求内容

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
查询镜像详情 - AI开发平台ModelArts

service_type String 镜像支持服务类型。枚举值如下： COMMON：通用镜像。 INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 size Long 镜像大小（单位KB）。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询服务事件日志 - AI开发平台ModelArts

查询服务事件日志功能介绍查询服务事件日志，包含服务的操作记录及部署过程中的关键动作、部署失败原因。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
使用AppCode认证鉴权方式进行在线预测 - AI开发平台ModelArts

使用AppCode认证鉴权方式进行在线预测场景描述 APPcode认证是一种简易的API调用认证方式，通过在HTTP请求头中添加参数X-Apig-AppCode来实现身份认证，无需复杂的签名过程，适合于客户端环境安全可控的场景，如内网系统之间的API调用。在ModelArts中

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
提交验收任务的样本评审意见 - AI开发平台ModelArts

提交验收任务的样本评审意见功能介绍提交验收任务的样本评审意见。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/dat

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
更新节点池 - AI开发平台ModelArts

更新节点池功能介绍更新节点池。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI PATCH /v2/{project_id}/pools/{pool_name}/

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

只支持自定义镜像导入模型部署的在线服务。调用API访问在线服务时，对预测请求体大小和预测时间有限制：请求体的大小不超过12MB，超过后请求会被拦截。因APIG（API网关）限制，平台每次请求预测的时间不超过40秒。 SSE在线服务调用 SSE协议本身不提供额外的认证方式，和HTTP请求方式一致。可

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
使用GPTQ量化 - AI开发平台ModelArts

1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用pergroup；desc_act必须设置为false，内容如下： { "bits": 8, "group_size":

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用pergroup；desc_act必须设置为false，内容如下： { "bits": 8, "group_size":

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用pergroup；desc_act必须设置为false，内容如下： { "bits": 8, "group_size":

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用pergroup；desc_act必须设置为false，内容如下： { "bits": 8, "group_size":

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用pergroup；desc_act必须设置为false，内容如下： { "bits": 8, "group_size":

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用pergroup；desc_act必须设置为false，内容如下： { "bits": 8, "group_size":

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

服务预测失败，报错APIG.XXXX 请求在APIG（API网关）出现问题被拦截，报错APIG.XXXX。常见报错： APIG.0101 预测地址错误 APIG.0201 请求体内容过大 APIG.0301 鉴权失败 APIG.1009 AppKey和AppSecret不匹配

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
查询支持的服务部署规格 - AI开发平台ModelArts

is_personal_cluster 否 Boolean 是否查询专属资源池支持的服务部署规格列表，默认为false。 infer_type 否 String 推理方式，枚举值如下： real-time：在线服务，默认值 batch：批量服务 edge: 边缘服务 limit 否 String 指定每一页返回的最大条目数，默认为1000。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
使用GPTQ量化 - AI开发平台ModelArts

1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用pergroup；desc_act必须设置为false，内容如下： { "bits": 8, "group_size":

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
W8A16量化 - AI开发平台ModelArts
W8A16量化 - AI开发平台ModelArts

) 步骤二：启动量化服务使用量化模型需要在NPU的机器上运行。在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用pergroup；desc_act必须设置为false，内容如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
使用GPTQ量化 - AI开发平台ModelArts

1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用pergroup；desc_act必须设置为false，内容如下： { "bits": 8, "group_size":

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化

总条数： 2323

上一页
1
...
54
55
56
...
117
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

多模态 - AI开发平台ModelArts

查询支持的镜像列表 - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

查询镜像详情 - AI开发平台ModelArts

查询服务事件日志 - AI开发平台ModelArts

使用AppCode认证鉴权方式进行在线预测 - AI开发平台ModelArts

提交验收任务的样本评审意见 - AI开发平台ModelArts

更新节点池 - AI开发平台ModelArts

使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

查询支持的服务部署规格 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

W8A16量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线