检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何评估微调后的盘古大模型是否正常 评估模型效果的方法有很多,通常可以从以下几个方面来评估模型训练效果: Loss曲线:通过Loss曲线的变化趋势来评估训练效果,确认训练过程是否出现了过拟合或欠拟合等异常情况。
这种情况可能是由于以下几个原因导致的,建议您依次排查: 训练参数设置:您可以通过绘制Loss曲线查询来确认模型的训练过程是否出现了问题,这种情况大概率是由于训练参数设置的不合理而导致了欠拟合,模型没有学到任何知识。
本场景的一个Loss曲线示例如下: 图1 Loss曲线 通过观察,该Loss曲线随着迭代步数的增加呈下降趋势直至稳定,证明整个训练状态是正常的。若Loss曲线呈现轻微阶梯式下降,为正常现象。
以下给出了几种正常的Loss曲线形式: 图1 正常的Loss曲线:平滑下降 图2 正常的Loss曲线:阶梯下降 如果您发现Loss曲线出现了以下几种情况,可能意味着模型训练状态不正常: Loss曲线上升:Loss上升的原因可能是由于数据质量差,或者学习率设置得过大,使得模型在最优解附近震荡
数据量和质量均满足要求,为什么盘古大模型微调效果不好 这种情况可能是由于以下原因导致的,建议您排查: 训练参数设置:您可以通过绘制Loss曲线查询来确认模型的训练过程是否出现了问题,这种情况大概率是由于训练参数设置的不合理而导致了欠拟合或过拟合。
这种情况可能是由于以下几个原因导致的,建议您依次排查: 训练参数设置:您可以通过绘制Loss曲线查询来确认模型的训练过程是否出现了问题,这种情况大概率是由于训练参数设置的不合理而导致了过拟合。
一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。 高空Loss(深海Loss) 高空Loss(深海Loss)是衡量模型在高空层次变量或在深海变量预测结果与真实结果之间差距的指标。
一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。 验证损失值 模型在验证集上的损失值。值越小,意味着模型对验证集数据的泛化能力越好。 获取训练日志 单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。
一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。 高空Loss(深海Loss) 高空Loss(深海Loss)是衡量模型在高空层次变量或在深海变量预测结果与真实结果之间差距的指标。
如果您没有专业的调优经验,可以优先使用ModelArts Studio平台的默认值,再结合损失曲线动态调整。 父主题: 盘古科学计算大模型调优实践
一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。 深海Loss 深海Loss是衡量模型在高空层次变量或在深海变量预测结果与真实结果之间差距的指标。 该值越小,表示模型在深海变量的预测精度越高。
这种情况可能是由于以下几个原因导致的,建议您依次排查: 训练参数设置:您可以通过绘制Loss曲线查询来确认模型的训练过程是否出现了问题,这种情况大概率是由于训练参数设置的不合理而导致了过拟合。
当调整为epoch=5时,loss曲线如图2,训练后可以正确回答政务问题。 图1 优化超参数前 图2 优化超参数后 参数的选择没有标准答案,您需要根据任务的实际情况进行调整,以上建议值仅供参考。 父主题: 盘古NLP大模型调优实践
本场景的一个Loss曲线示例如下: 图1 Loss曲线 通过观察,Loss曲线随着迭代步数的增加呈下降趋势直至稳定,证明整个训练状态是正常的。
优化示例为:将from参数的描述优化为“翻译原语言,取值为:ar,de,ru,fr,ko,pt,ja,th,es,en,vi,zh,auto”,将to参数的描述优化为“翻译目标语言,取值为:ar,de,ru,fr,ko,pt,ja,th,es,en,vi,zh”。
与云搜索服务的关系 盘古大模型使用云搜索服务CSS,加入检索模块,提高模型回复的准确性、解决内容过期问题。
enable_search 否 boolean 是否启动搜索增强。 默认值为false,如果开启搜索增强,请赋值为true。 表4 moderation_config 参数 参数类型 描述 black_glossary_names String 黑名单词库列表。
欠拟合 欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。 损失函数 损失函数(Loss Function)是用来度量模型的预测值f(x)与真实值Y的差异程度的运算函数。
本场景的一个Loss曲线示例如下: 图2 query改写/中控模型微调时的Loss曲线 图3 问答模型微调时的Loss曲线 通过观察,Loss曲线随着迭代步数的增加呈下降趋势直至稳定,证明整个训练状态是正常的。
503 Service Unavailable 被请求的服务无效。 建议直接修改该请求,不要重试该请求。 504 Gateway Timeout 请求在给定的时间内无法完成。客户端仅在为请求指定超时(Timeout)参数时会得到该响应。