盘古大模型 PANGULARGEMODELS-打造政务智能问答助手:评估和优化模型

时间:2024-10-18 10:48:53

评估和优化模型

模型评估:

您可以从平台的训练日志中获取到每一步的Loss,并绘制成Loss曲线。本场景的一个Loss曲线示例如下:

图2 query改写/中控模型微调时的Loss曲线
图3 问答模型微调时的Loss曲线

通过观察Loss曲线随着迭代步数的增加呈下降趋势直至稳定,证明整个训练状态是正常的。

模型持续优化:

本场景采用了下表中的推理参数进行解码,您可以在平台中参考如下参数调试:

表3 问答模型的推理核心参数设置

推理参数

设置值

最大Token限制(max_token)

4096

温度(temperature)

0.9

核采样(top_p)

0.4

话题重复度控制(presence_penalty)

0.3

部署推理服务后,可以采用人工评测的方案来评估模型效果。以下列出场景中可能遇到的常见问题,评测过程中如出现这些问题,可参考相应的解决方案:

  • 问题一:问答场景问题,针对文档库中的内容可以回答的问题,模型的最终回答不符合预期。
  • 解决方案:首先进行问题定位,确定是未检索到相关文档,还是检索到相关内容但模型理解错误。如果未检索到相关文档,则需从入库内容优化、提高检索精度、过滤无关内容等方面进行检索优化。如果检索内容正确,但模型回复不符合预期,则应考虑优化微调数据并重新训练模型。
  • 问题二:针对特定问题,问答场景模型可以较好地回复内容,但对闲聊场景,模型的回复很差。
  • 解决方案:这里有可能有两方面的原因:一方面是问答模块对应的模型的通用能力较差,另一方面是中控模块执行判断是否需要调用检索出错,检索文档混入导致模型受到干扰。针对前者,说明模型的通用能力退化,需要在微调模型时适当混入一些通用数据。
support.huaweicloud.com/bestpractice-pangulm/pangulm_04_0003.html