搜索_华为云

使用AWQ量化工具转换权重 - AI开发平台ModelArts

to_awq.html。 Step2 权重格式离线转换（可选） AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表1。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
模型推理代码编写说明 - AI开发平台ModelArts

for signature_def in signature_defs: signature.append(signature_def) if len(signature) == 1: model_signature =

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
使用AWQ量化工具转换权重 - AI开发平台ModelArts

to_awq.html。 Step2 权重格式离线转换（可选） AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

Step2 权重格式转换 AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，需要进行权重转换。进入llm_tools/AutoAWQ代码目录下执行以下脚本：执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式，请在转换前备份。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Noteboo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Noteboo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Noteboo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
Standard开发环境 - AI开发平台ModelArts

CodeLab（JupyterLab），让AI探索&教学更简单云原生Notebook，案例内容秒级接入与分享 Serverless化实例管理，资源自动回收免费算力，规格按需切换亮点特性1：远程开发 - 支持本地IDE远程访问Notebook Notebook提供了远程开发功能，通过开启SSH连接，用户本地IDE

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
Lite Cluster使用流程 - AI开发平台ModelArts

Lite Cluster面向k8s资源型用户，提供托管式k8s集群，并预装主流AI开发插件以及自研的加速插件，以云原生方式直接向用户提供AI Native的资源、任务等能力，用户可以直接操作资源池中的节点和k8s集群。本文旨在帮助您了解Lite Cluster的基本使用流程，帮助您快速上手。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
配置模型服务接口地址时需要注意什么格式问题？ - AI开发平台ModelArts

配置模型服务接口地址时需要注意什么格式问题？在大部分应用平台内配置模型服务接口地址时，需要去除URL尾部的/chat/completions路径。正确示例：假设原始地址为https://example.com/v1/chat/completions，应简化为https://example

帮助中心 > AI开发平台ModelArts > 常见问题 > MaaS
配置Lite Server网络 - AI开发平台ModelArts

配置SNAT规则。 SNAT功能通过绑定弹性公网IP，实现私有IP向公有IP的转换，可实现VPC内跨可用区的多个云主机共享弹性公网IP、安全高效地访问互联网。公网NAT网关页面，单击创建的NAT网关名称，进入NAT网关详情页。在SNAT规则页签下，单击“添加SNAT规则”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
在Notebook中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

k。在Notebook对应操作列，单击“更多 > 变更镜像”，打开“变更镜像”弹出框，变更镜像选择“自定义镜像”，将当前镜像变更为Step2 构建成功的镜像注册到镜像管理模块注册的镜像，如图7所示。图7 变更镜像启动变更后的Notebook，并打开。进入Terminal运行界面，在工作目录，运行启动脚本run

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

常见问题模型转换失败怎么办？常见的模型转换失败原因可以通过查询转换失败错误码来确认具体导失败的原因。Stable Diffusion新推出的模型在转换中可能会遇到算子不支持的问题，您可以到华为云管理页面上提交工单来寻求帮助。图片大Shape性能劣化严重怎么办？在昇腾设备上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
安装Gallery CLI配置工具 - AI开发平台ModelArts

Gallery仓库中。约束限制 Gallery CLI配置工具下载文件时依赖集群的公网访问权限，所以在使用CLI时要求集群配置NAT网关，具体操作请参见公网NAT网关。只有托管到AI Gallery仓库的资产才支持使用Gallery CLI配置工具下载文件，如果在资产详情页有“复制完

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
在推理生产环境中部署推理服务 - AI开发平台ModelArts

本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。模型权重文件获取地址请参见表1。若需要部署量化模型，请参考推理模型量化在Notebook中进行权重转换，并将转换后的权重上传至OBS中。权重文件夹不要以"model"命名，若以"model"命名会导致后续创建AI应用报错。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
准备BF16权重 - AI开发平台ModelArts

准备FP8至BF16权重转换脚本fp8_cast_bf16.py，具体脚本内容参见权重转换脚本文件fp8_cast_bf16.py。权重转换需要使用有CPU资源的机器，建议直接登录Lite Server节点执行权重转换。在Server机器上创建权重转换后的存放目录${path-

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 准备权重
执行SFT全参微调训练任务 - AI开发平台ModelArts

TRUE 训练完成的权重文件默认不会自动转换为Hugging Face格式权重。如果需要自动转换，则在运行脚本添加变量CONVERT_MG2HF并赋值TRUE。如果用户后续不需要自动转换，则在运行脚本中必须删除CONVERT_MG2HF变量。转换的Hugging Face格式权重会保

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）
执行LoRA微调训练任务 - AI开发平台ModelArts

TRUE 训练完成的权重文件默认不会自动转换为Hugging Face格式权重。如果需要自动转换，则在运行脚本添加变量CONVERT_MG2HF并赋值TRUE。如果用户后续不需要自动转换，则在运行脚本中必须删除CONVERT_MG2HF变量。转换的Hugging Face格式权重会保

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
执行LoRA微调训练任务 - AI开发平台ModelArts

码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。 Step2 修改训练超参配置以Llama2-70b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）

总条数： 1153

上一页
1
2
3
4
5
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

模型推理代码编写说明 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

Standard开发环境 - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

配置模型服务接口地址时需要注意什么格式问题？ - AI开发平台ModelArts

配置Lite Server网络 - AI开发平台ModelArts

在Notebook中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

安装Gallery CLI配置工具 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

准备BF16权重 - AI开发平台ModelArts

执行SFT全参微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线