盘古大模型 PANGULARGEMODELS-创建有监督训练任务:有监督微调(局部微调)训练参数说明

时间:2024-10-15 17:57:21

有监督微调(局部微调)训练参数说明

表7 有监督微调(局部微调)参数说明

训练参数

默认值

范围

说明

LoRA轶值

/

8、16、32、64

较高的取值意味着更多的参数被更新,模型具有更大的灵活性,但需要更多的计算资源和内存。较低的取值则意味着更少的参数更新,资源消耗更少,但模型的表达能力可能受到限制。

训练轮数

4

1~50

完成全部训练数据集训练的次数。

学习率

0.0001

0~1

学习率用于控制每个训练步数(step)参数更新的幅度。需要选择一个合适的学习,因为学习率过大会导致模型难以收敛,学习率过小会导致收敛速度过慢。

优化器

adamw

adamw

优化器参数指的是用于更新模型权重的优化算法的相关参数,可以选择adamw。

  • adamw是一种改进的Adam优化器,它在原有的基础上加入了权重衰减(weight decay)的机制,可以有效地防止过拟合(overfitting)的问题。

学习率衰减比率

0.1

0~1

学习率衰减后,最小不会低于的学习率,计算公式为:学习率*学习率衰减比率。

热身比例

0.01

0~1

热身阶段占整体训练的比例。

模型刚开始训练时,如果选择一个较大的学习率,可能导致模型训练不稳定。选择使用warmup热身的方式,可以使开始训练的热身阶段内学习率较小,模型可以慢慢趋于稳定,待模型相对稳定后再逐渐提升至预设的最大学习率进行训练。使用热身可以使得模型收敛速度更快,效果更佳。

support.huaweicloud.com/ugobs-obs-pangulm/pangulm_03_0049.html