搜索_华为云

通过AK/SK认证的方式访问在线服务 - AI开发平台ModelArts

求签名的SDK 创建Java类，进行预测请求。由于在APIG的Java SDK中，“request.setBody()”只支持String类型，所以只支持输入为文本格式的预测请求。如果输入的是文件格式，需要先进行base64编码转换成文本。输入为文件格式此处以json格式为

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
通过VPC访问通道的方式访问在线服务 - AI开发平台ModelArts

获取ModelArts终端节点服务地址购买连接ModelArts终端节点创建DNS内网域名 VPC访问在线服务提交工单，提供账号ID给华为云技术支持，用于获取ModelArts终端节点服务地址。购买连接ModelArts终端节点登录虚拟私有云（VPC）管理控制台，单击左侧导航栏中的“VPC

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
通过公网访问通道的方式访问在线服务 - AI开发平台ModelArts

情：通过Token认证的方式访问在线服务通过AK/SK认证的方式访问在线服务通过APP认证的方式访问在线服务父主题：访问在线服务支持的访问通道

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
服务韧性 - AI开发平台ModelArts
服务韧性 - AI开发平台ModelArts

和数据层的安全入侵行为。 ModelArts服务涉及对互联网开放的Web应用，采用了统一推荐的Web安全组件防范Web安全风险，并且通过WAF进行安全防护。所有承载ModelArts服务的主机部署了主机安全防护产品。包括不限于华为自研HSS或计算安全平台CSP。 ModelAr

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

相较于WebSocket（双向实时），它更加轻量级且易于实现。前提条件在线服务中的模型导入选择的镜像需支持SSE协议。约束与限制 SSE协议只支持部署在线服务。只支持自定义镜像导入模型部署的在线服务。调用API访问在线服务时，对预测请求体大小和预测时间有限制：请求体的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
删除训练作业 - AI开发平台ModelArts

删除训练作业功能介绍删除训练作业。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/training-jobs/{training_job_id}

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
更新训练作业描述 - AI开发平台ModelArts

更新训练作业描述功能介绍更新训练作业描述。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI PUT /v2/{project_id}/training-jobs/{training_job_id}

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询训练作业详情 - AI开发平台ModelArts

查询训练作业详情功能介绍查询训练作业详情。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-jobs/{training_job_id}

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8是实验特性，在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见表3。 Step1使用tensorRT量化工具进行模型量化，必须在GPU环境

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

可能会劣于非量化。当前支持per-tensor静态量化、per-tensor+per-head静态量化以及per-token，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见表3。 per-tensor静态量化场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8是实验特性，在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见表3。 Step1使用tensorRT量化工具进行模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

分场景下性能可能会劣于非量化。当前支持per-tensor静态量化和per-tensor+per-head静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见表3。 per-tensor静态量化场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

可能会劣于非量化。当前支持per-tensor静态量化、per-tensor+per-head静态量化以及per-token，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见表3。 per-tensor静态量化场景

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8是实验特性，在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见表3。 Step1使用tensorRT量化工具进行模型量化，必须在GPU环境

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
创建训练作业标签 - AI开发平台ModelArts

创建训练作业标签功能介绍创建训练作业标签，支持批量添加，当添加的标签key已存在，则覆盖该标签的value。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

GPU个数，可选，默认不使用，支持配置小数，输入值不能小于0（最多支持2位小数，小数点后第3位做四舍五入处理）。 memory 是 Integer 内存，单位为MB，仅支持整数。 cpu 是 Float CPU核数，支持配置小数，输入值不能小于0.01（最多支持2位小数，小数点后第3位做四舍五入处理）。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
创建Workflow服务部署节点 - AI开发平台ModelArts

config中的cluster_id参数。否 str additional_properties 附加的相关配置信息。否 dict apps 服务部署支持APP认证。支持填入多个app name。否 str、Placeholder、list envs 环境变量否 dict 示例： example

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
NPU日志收集上传 - AI开发平台ModelArts

当NPU出现故障，您可通过本方案收集NPU的日志信息。本方案中生成的日志会保存在节点上，并自动上传至华为云技术支持提供的OBS桶中，日志仅用于问题定位分析，因此需要您提供AK/SK给华为云技术支持，用于授权认证。约束限制当前仅支持在贵阳一、乌兰察布一使用该功能。操作步骤获取AK/SK。该AK/SK用于后续脚本配置，做认证授权。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式，使用W8A16的量化不仅可以保证精度在可接受的范围内，同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化

总条数： 1360

上一页
1
2
3
4
5
...
68
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

通过AK/SK认证的方式访问在线服务 - AI开发平台ModelArts

通过VPC访问通道的方式访问在线服务 - AI开发平台ModelArts

通过公网访问通道的方式访问在线服务 - AI开发平台ModelArts

服务韧性 - AI开发平台ModelArts

使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

创建训练作业标签 - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

创建Workflow服务部署节点 - AI开发平台ModelArts

NPU日志收集上传 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线