第50届国际著名数据库会议VLDB(Very Large Data Base Conference)于2024年8月26日至30日在中国广州举办。VLDB是数据科学和工程领域最具影响力的国际学术会议之一,其聚焦于大规模数据管理,同时也涵盖了机器学习、数据挖掘、大数据分析、人工智能应用等多个前沿领域。华为云可用性工程Lab与华东师范大学、丹麦奥尔堡大学联合发表时间序列预测benchmark论文,聚焦全面公正的时间序列预测算法评价。该论文获得了VLDB 2024最佳论文提名。
摘要:
时间序列出现在经济、交通、健康和能源等多个领域,对未来值的预测具有许多重要应用。因此,人们提出了许多预测方法。为了推动研究领域的发展,有必要以全面和可靠的方式对这些方法进行研究和比较。为了实现这一目标,我们提出了TFB,这是一个用于时间序列预测方法的自动化基准。TFB通过解决与数据集、比较方法和评估流程相关的缺陷来推动最新技术的发展:1)数据领域覆盖不足,2)对传统方法的陈规偏见,3)流程不一致且不灵活。为了获得更好的数据集的领域覆盖率,我们包括来自10个不同领域的数据集:交通、电力、能源、环境、自然、经济、股票市场、银行、健康和网络。我们还提供了时间序列特征化,以确保所选数据集是全面的。为了消除对某些方法的偏见,我们包括了各种方法,包括统计学习、机器学习和深度学习方法,并支持多种评估策略和指标,以确保对不同方法进行更全面的评估。为了支持不同方法集成到基准中并实现公平比较,TFB具有灵活和可扩展的流程,消除了偏见。接下来,我们利用TFB对21种单变量时间序列预测方法在8,068个单变量时间序列上进行了评估,并在25个数据集上对14种多变量时间序列预测方法进行了评估。评估结果深入分析了预测方法,使我们能够更好地选择适合特定数据集和设置的方法。总体而言,TFB为研究人员提供了开发新的时间序列预测方法的手段。基准代码和数据请访问 https://github.com/decisionintelligence/TFB。
背景:
随着数字化进程的不断推进,时间序列出现在经济、交通、健康、能源和物联网等各个领域。随着针对不同数据集和设置提出越来越多的方法,对方法的公平和全面的评估的需求也日益增加。为了实现这一目标,我们识别并解决了现有评估框架中的三个问题,从而提高了我们的评估能力:
问题1. 数据领域覆盖不足。传统时序预测基准数据集中数据来源领域覆盖不足。
问题2. 对传统方法的刻板影响。许多新的基准测试往往忽略了经典的预测算法,如线性回归预测,但是实验证明仍然存在许多场景,其中经典的预测方法效果优于SOTA模型。
问题3. 缺乏一致和灵活的流程。不同方法的性能随着实验设置的变化而变化,例如,在训练/验证/测试数据之间的划分、归一化方法的选择和超参数设置的选择。这影响了我们比较不同论文中的结果。
论文亮点:
- 根据数据集特征分类方法进行全面的数据集收集(解决问题1):收集的数据集提供了多样化的特征,涵盖了来自多个领域和复杂设置的时间序列。这有助于确保更加健壮和广泛的评估。
图1: TFB较其他基准数据集覆盖的数据领域更多
图2: TFB较其他基准数据集对数据特征的覆盖更加完整
- 广泛覆盖现有方法并扩展对评估策略和指标的支持(解决问题2):TFB涵盖了各种方法,包括统计学习、机器学习和深度学习方法,配备了各种评估策略和指标。这种丰富性使得能够更全面地评估各种方法和评估设置。
图3:可灵活增加的多种预测策略
图4:包括经典算法在内的丰富对比算法
- 灵活和可扩展的流程(解决问题3):TFB通过其设计提高了方法比较的公平性。方法使用统一的流程进行评估,采用一致和标准化的评估策略和数据集,消除了偏见,使得性能比较更加准确。这使得能够更公平和有意义地得出关于方法有效性和效率的结论。
图5:TFB评价pipeline
总结:
时间序列预测技术在多个领域内有着广泛的应用,在云计算中,它常常被用于故障预测、需求预测、财经预测等多种场景。而现有的预测方法种类繁多,难以公平地评价其在不同场景下的性能,进而难以针对特定场景选择合适的算法。
TFB基准的提出为时间序列预测方法的评估提供了更可靠、全面和用户友好的工具。通过覆盖多个领域的数据集、支持多种预测方法以及提供统一的评估流程,TFB有望推动时间序列预测领域的进一步发展,为研究人员提供更好的方法设计和选择依据。
原文链接:https://arxiv.org/pdf/2403.20150
代码仓链接:https://github.com/decisionintelligence/TFB