搜索_华为云

【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

00:00(北京时间)正式退市。旧版训练管理如何升级到新版训练？请参考新版训练指导文档（模型训练）来体验新版训练。旧版训练迁移至新版训练需要注意哪些问题？新版训练和旧版训练的差异主要体现在以下3点。新旧版创建训练作业方式差异新旧版训练代码适配的差异新旧版训练预置引擎差异父主题：下线公告

 帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
附录：大模型推理常见问题 - AI开发平台ModelArts

使用benchmark-tools访问推理服务时，输入输出的token和大于max_model_len，服务端返回报错Response payload is not completed，见图2。再次设置输入输出的token和小于max_model_len访问推理服务，服务端响应200，见图3。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
更新服务配置 - AI开发平台ModelArts

包括predictor configs结构和transformer configs 服务配置，不设置此参数时，表示不更新。关于configs如何生成，请参见部署在线服务。更新服务配置时，存在以下约束：参数status指定的目标状态不允许和当前服务状态相同。当前服务状态是dep

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
使用AWQ量化工具转换权重 - AI开发平台ModelArts

AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
什么是边缘节点？ - AI开发平台ModelArts

什么是边缘节点？边缘节点是您自己的边缘计算设备，用于运行边缘应用，处理您的数据，并安全、便捷地和云端应用进行协同。父主题：边缘服务

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 边缘服务
使用AWQ量化工具转换权重 - AI开发平台ModelArts

AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
Step4 测试用户权限 - AI开发平台ModelArts

在左上角选择区域，区域需与授权配置中的区域相同。在ModelArts左侧菜单栏中，选择“开发环境>Notebook”，界面未提示权限不足，表明ModelArts的使用权限和委托授权配置成功。如果提示“需获取依赖服务的授权”，说明未配置ModelArts委托访问授权，请参考Step3 为用户配置ModelArt

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

NPU推理指导（6.3.909）推理场景介绍部署推理服务推理性能测试推理精度测试推理模型量化附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
使用kv-cache-int8量化 - AI开发平台ModelArts

量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。 Step1使用tensorRT量化工具进行模型量化在GPU机器上使用tensorRT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。 Step1使用tensorRT量化工具进行模型量化在GPU机器上使用tensorRT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
入驻AI Gallery - AI开发平台ModelArts

至“欢迎入驻AI Gallery”页面。在“欢迎入驻AI Gallery”页面，填写“昵称”和“邮箱”，并根据提示获取验证码。阅读并同意《华为云AI Gallery数字内容发布协议》和《华为云AI Gallery服务协议》后，单击“确定”完成入驻。图1 入驻AI Gallery

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
ModelArts入门实践 - AI开发平台ModelArts

本案例介绍了如何使用ModelArts Standard专属资源池提供的计算资源，结合SFS和OBS存储，在ModelArts Standard的训练环境中开展单机单卡、单机多卡、多机多卡分布式训练。面向熟悉代码编写和调测的AI工程师，同时了解SFS和OBS云服务从 0 制作自定义镜像并用于训练（Pytorch+CPU/GPU）

帮助中心 > AI开发平台ModelArts > 快速入门
主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

推理场景介绍部署推理服务推理性能测试推理精度测试推理模型量化 Eagle投机小模型训练附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
使用AWQ量化工具转换权重 - AI开发平台ModelArts

AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
权限策略和授权项 - AI开发平台ModelArts

权限策略和授权项策略及授权项说明数据管理权限开发环境权限训练作业权限模型管理权限服务管理权限工作空间管理权限 DevServer权限

 帮助中心 > AI开发平台ModelArts > API参考
主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） - AI开发平台ModelArts

NPU推理指导（6.3.908）推理场景介绍部署推理服务推理性能测试推理精度测试推理模型量化附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

推理场景介绍部署推理服务推理性能测试推理精度测试推理模型量化 eagle投机小模型训练附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

NPU推理指导（6.3.909）推理场景介绍准备工作部署推理服务推理性能测试推理精度测试推理模型量化附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题附录：工作负载Pod异常问题和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
模型管理计费项 - AI开发平台ModelArts

对象存储OBS 用于存储训练和推理的输入数据和输出结果数据。具体费用可参见对象存储价格详情。注意：存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除，则会按照OBS的计费规则进行持续计费。按需计费包年/包月创建桶不收取费用，按实际使用的存储容量和时长收费计费示例示例：存储费用

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表1。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化

总条数： 1680

上一页
1
...
79
80
81
...
84
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

什么是边缘节点？ - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

Step4 测试用户权限 - AI开发平台ModelArts

主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

入驻AI Gallery - AI开发平台ModelArts

ModelArts入门实践 - AI开发平台ModelArts

主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

权限策略和授权项 - AI开发平台ModelArts

主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） - AI开发平台ModelArts

主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

模型管理计费项 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线