搜索_华为云

分离部署推理服务 - AI开发平台ModelArts

类型type、属性properties，必需属性required 、定义definitions等，JSON Schema通过定义对象属性、类型、格式的方式来引导模型生成一个包含用户信息的JSON对象。若希望使用JSON Schema，guided_json的写法可参考outlines: Structured

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory。解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified max_model_len

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909）
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory。解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified max_model_len

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。多模态只支持hf上下载的awq权重，可跳过步骤一。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
准备数据（可选） - AI开发平台ModelArts

准备数据（可选）此小节为自定义数据集执行过程，如非自定义数据集此小节忽略。本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集，目前支持alpaca格式和sharegpt格式的微调数据集；使用自定义数据集时，请更新代码目录下data/dataset_info

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
准备数据（可选） - AI开发平台ModelArts

准备数据（可选）此小节为自定义数据集执行过程，如非自定义数据集此小节忽略。本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集，目前支持alpaca格式和sharegpt格式的微调数据集；使用自定义数据集时，请更新代码目录下data/dataset_info

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
准备镜像环境 - AI开发平台ModelArts

准备镜像环境准备训练模型适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置物理机环境操作。镜像地址本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址基础镜像 swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 准备工作
准备数据（可选） - AI开发平台ModelArts

准备数据（可选）此小节为自定义数据集执行过程，如非自定义数据集此小节忽略。本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集，目前支持alpaca格式和sharegpt格式的微调数据集；使用自定义数据集时，请更新dataset_info.json文件；请务必在dataset_info

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 准备工作
训练精度测试 - AI开发平台ModelArts

训练精度测试约束限制目前仅支持以下模型： qwen2.5-7b qwen2-7b qwen1.5-7b llama3.2-3b llama3.1-8b llama3-8b llama2-7b yi-6b 流程图训练精度测试流程图如下图所示。图1 训练精度测试流程图执行训练任务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
精度调优前准备工作 - AI开发平台ModelArts

精度调优前准备工作在定位精度问题之前，首先需要排除训练脚本及参数配置等差异的干扰。目前大部分精度无法对齐的问题都是由于模型超参数、Python三方库版本、模型源码等与标杆环境（GPU/CPU）设置的不一致导致，为了在定位过程中少走弯路，需要在定位前先对训练环境及代码做有效排查。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明以 llama2-13b 举例，运行 0_pl_pretrain_13b.sh 脚本。脚本同样还会检查是否已经完成权重转换的过程。若已完成权重转换，则直接执行预训练任务。若未进行权重转换，则会自动执行 scripts/llama2/2_convert_mg_hf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingfac

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory 解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified max_model_len

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
Workflow多分支运行介绍 - AI开发平台ModelArts

Workflow多分支运行介绍当前支持两种方式实现多分支的能力，条件节点只支持双分支的选择执行，局限性较大，推荐使用配置节点参数控制分支执行的方式，可以在不添加新节点的情况下完全覆盖ConditionStep的能力，使用上更灵活。构建条件节点控制分支执行主要用于执行流程的条件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
训练图像分类模型 - AI开发平台ModelArts

训练图像分类模型完成图片标注后，可进行模型的训练。模型训练的目的是得到满足需求的图像分类模型。请参考前提条件确保已标注的图片符合要求，否则数据集校验将会不通过。前提条件请确保您的数据集中的已标注的图片不低于100张。请确保您的数据集中至少存在2种以上的图片分类，且每种分类的图片不少于5张。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前，针对ChatGLMv3-6B模型中的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 kv-cache-int8是实验特性，在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见表3。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明以 llama2-13b 举例，运行 0_pl_pretrain_13b.sh 脚本。脚本同样还会检查是否已经完成权重转换的过程。若已完成权重转换，则直接执行预训练任务。若未进行权重转换，则会自动执行 scripts/llama2/2_convert_mg_hf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明

总条数： 2651

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

分离部署推理服务 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

准备数据（可选） - AI开发平台ModelArts

准备数据（可选） - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备数据（可选） - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

Workflow多分支运行介绍 - AI开发平台ModelArts

训练图像分类模型 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线