检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练启动脚本说明和参数配置 本代码包中集成了不同模型(包括llama2、llama3、Qwen、Qwen1.5 ......)的训练脚本,并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。
SFT全参微调训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 修改训练超参配置 以llama2-13b SFT微调为例,执行脚本 0_pl_sft_13b.sh 。 修改模型训练脚本中的超参配置,必须修改的参数如表1所示。其他超参均有默认值,可以参考表1按照实际需求修改。
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
在Lite Cluster资源池上使用Snt9B完成推理任务 场景描述 本案例介绍如何在Snt9B环境中利用Deployment机制部署在线推理服务。首先创建一个Pod以承载服务,随后登录至该Pod容器内部署在线服务,并最终通过新建一个终端作为客户端来访问并测试该在线服务的功能。
使用AOM查看Lite Cluster监控指标 ModelArts Lite Cluster会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况并上报到AOM,用户可直接在AOM上查看默认配置好的基础指标,也支持用户自定义一些指标项上报到AOM查看。
SFT全参微调训练任务 Step1 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
分离部署推理服务 本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。 什么是分离部署 大模型推理是自回归的过程,有以下两阶段: Prefill阶段(全量推理) 将用户请求的prompt传入大模型,进行计算,中间结果写入KVCache并推出第1个token,属于计算密集型。
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
附录:大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified max_model_len
根据配置文件历史ID删除配置文件历史 功能介绍 此API用于通过配置文件历史ID删除配置文件历史。 URI DELETE /v3/{project_id}/cas/configs/{config_id}/histories/{config_history_id} 表1 路径参数 参数
选择UCS的续费时长,判断是否勾选“统一到期日”,将UCS套餐包到期时间统一到各个月的某一天(详细介绍请参见图4)。确认配置费用后单击“去支付”。 图4 续费确认 进入支付页面,选择支付方式,确认付款,支付订单后即可完成续费。 统一包年/包月资源的到期 如果您购买了对应不同集群类型的UCS套餐包,且到期日不同,
HTTP访问异常。 HTTP访问异常。 请重试。如仍有问题,请联系支持工程师处理。 406 IDE.00900007 存在未支付订单。 存在未支付订单。 支付或取消未支付订单。 406 IDE.00900008 激活码数量超出配额。 激活码数量超出配额。 父主题: 附录
日”,将套餐包到期时间统一到各个月的某一天(详细介绍请参见统一套餐包资源的到期日)。确认配置费用后单击“去支付”。 图4 续费确认 进入支付页面,选择支付方式,确认付款,支付订单后即可完成续费。 统一套餐包资源的到期日 如果您持有多个到期日不同的套餐包,可以将到期日统一设置到一个日期,便于日常管理和续费。
量续费资源个数。 确认待续费资源的相关信息,并设置续费时长,单击“去支付”。 选择优惠和支付方式,单击“确认付款”。 单次批量续费操作生成一条组合交易订单,可以选择一个折扣。 一次支付只能使用一张代金券。 支付成功后即可完成本次续费操作。单击“查看订单详情”可查看已续费资源详情。
转包周期操作也可以在集群的详情页面单击“转包周期”,跳转到包年/包月页面。 跳转到包年/包月页面,选择购买时长,单击“去支付”。 跳转到支付页面,选择支付方式,单击“确认付款”。 订单支付成功后,返回集群列表,单击指定集群进入详情页面,查看“计费模式”。 包年包月退订 前提条件:集群计费模式为“包年/包月”。