搜索_华为云

使用GPTQ量化 - AI开发平台ModelArts

save_pretrained("CodeLlama-34b-hf") 使用量化模型使用量化模型需要在NPU的机器上运行。 1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用perg

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

save_pretrained("CodeLlama-34b-hf") 使用量化模型使用量化模型需要在NPU的机器上运行。 1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用perg

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

save_pretrained("CodeLlama-34b-hf") 使用量化模型使用量化模型需要在NPU的机器上运行。 1. 在模型的保存目录中创建quant_config.json文件，bits必须设置为8，指定量化为int8；group_size必须设置为-1，指定不使用perg

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

约束限制本文档适配昇腾云ModelArts 6.5.901版本，请参考表1获取配套版本的软件包，请严格遵照版本配套关系使用本文档。本文档中的模型运行环境是ModelArts Lite Server。镜像适配的Cann版本是cann_8.0.rc3。 Lite Server驱动版本要求23

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901）
推理场景介绍 - AI开发平台ModelArts

照版本配套关系使用本文档。资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0.6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍 Baichuan2是百川智能推出的新一代Q开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。包含有 7B、13B 的 Base 和 Chat 版本,并提供了 Chat

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

约束限制本文档适配昇腾云ModelArts 6.3.912版本，请参考表1获取配套版本的软件包，请严格遵照版本配套关系使用本文档。本文档中的模型运行环境是ModelArts Lite Server。镜像适配的Cann版本是cann_8.0.rc3。 Lite Server驱动版本要求23

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

约束限制本文档适配昇腾云ModelArts 6.3.911版本，请参考表1获取配套版本的软件包，请严格遵照版本配套关系使用本文档。本文档中的模型运行环境是ModelArts Lite Server。镜像适配的Cann版本是cann_8.0.rc3。 Lite Server驱动版本要求23

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本案例在Notebook上部署推理服务进行调试，因此需要创建Notebook。部署推理服务在Notebook调试环境中部署推理服务介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。如果需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
推理场景介绍 - AI开发平台ModelArts

照版本配套关系使用本文档。资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0.6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
推理场景介绍 - AI开发平台ModelArts

照版本配套关系使用本文档。资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0.6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
训练参数配置说明【旧】 - AI开发平台ModelArts

用LLama-Factory模板Sharegpt数据集 MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
训练参数配置说明【旧】 - AI开发平台ModelArts

用LLama-Factory模板Sharegpt数据集 MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
训练参数配置说明【旧】 - AI开发平台ModelArts

用LLama-Factory模板Sharegpt数据集 MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练脚本说明参考
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本案例在Notebook上部署推理服务进行调试，因此需要创建Notebook。部署推理服务在Notebook调试环境中部署推理服务介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。如果需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本案例在Notebook上部署推理服务进行调试，因此需要创建Notebook。部署推理服务在Notebook调试环境中部署推理服务介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。如果需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
训练参数配置说明【旧】 - AI开发平台ModelArts

用LLama-Factory模板Sharegpt数据集 MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练脚本说明参考
查询模型详情 - AI开发平台ModelArts

查询模型详情查询当前模型对象的信息。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式1：根据导入模型生成的模型对象进行模型详情查询 1 2 3 4 5 6 7 from modelarts

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
推理专属预置镜像列表 - AI开发平台ModelArts

推理专属预置镜像列表 ModelArts的推理平台提供了一系列的基础镜像，用户可以基于这些基础镜像构建自定义镜像，用于部署推理服务。 X86架构（CPU/GPU）的推理基础镜像表1 TensorFlow AI引擎版本支持的运行环境镜像名称 URI 2.1.0 CPU GPU(cuda10

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
支持的模型列表 - AI开发平台ModelArts

deepseek-v2-236b x x √ x x https://huggingface.co/deepseek-ai/DeepSeek-V2 53 deepseek-v2-lite-16b √ x √ x x https://huggingface.co/deepseek-ai/DeepSeek-V2-Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）

总条数： 1525

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

查询模型详情 - AI开发平台ModelArts

推理专属预置镜像列表 - AI开发平台ModelArts

支持的模型列表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线