云可用性工程Lab_新闻_VLDB2024最佳论文提名-华为云

云可用性工程Lab与华东师大合作论文获选VLDB 2024最佳论文提名

第50届国际著名数据库会议VLDB（Very Large Data Base Conference）于2024年8月26日至30日在中国广州举办。VLDB是数据科学和工程领域最具影响力的国际学术会议之一，其聚焦于大规模数据管理，同时也涵盖了机器学习、数据挖掘、大数据分析、人工智能应用等多个前沿领域。华为云可用性工程Lab与华东师范大学、丹麦奥尔堡大学联合发表时间序列预测benchmark论文，聚焦全面公正的时间序列预测算法评价。该论文获得了VLDB 2024最佳论文提名。

images_172708396836874

摘要：

时间序列出现在经济、交通、健康和能源等多个领域，对未来值的预测具有许多重要应用。因此，人们提出了许多预测方法。为了推动研究领域的发展，有必要以全面和可靠的方式对这些方法进行研究和比较。为了实现这一目标，我们提出了TFB，这是一个用于时间序列预测方法的自动化基准。TFB通过解决与数据集、比较方法和评估流程相关的缺陷来推动最新技术的发展：1）数据领域覆盖不足，2）对传统方法的陈规偏见，3）流程不一致且不灵活。为了获得更好的数据集的领域覆盖率，我们包括来自10个不同领域的数据集：交通、电力、能源、环境、自然、经济、股票市场、银行、健康和网络。我们还提供了时间序列特征化，以确保所选数据集是全面的。为了消除对某些方法的偏见，我们包括了各种方法，包括统计学习、机器学习和深度学习方法，并支持多种评估策略和指标，以确保对不同方法进行更全面的评估。为了支持不同方法集成到基准中并实现公平比较，TFB具有灵活和可扩展的流程，消除了偏见。接下来，我们利用TFB对21种单变量时间序列预测方法在8,068个单变量时间序列上进行了评估，并在25个数据集上对14种多变量时间序列预测方法进行了评估。评估结果深入分析了预测方法，使我们能够更好地选择适合特定数据集和设置的方法。总体而言，TFB为研究人员提供了开发新的时间序列预测方法的手段。基准代码和数据请访问 https://github.com/decisionintelligence/TFB。

背景：

随着数字化进程的不断推进，时间序列出现在经济、交通、健康、能源和物联网等各个领域。随着针对不同数据集和设置提出越来越多的方法，对方法的公平和全面的评估的需求也日益增加。为了实现这一目标，我们识别并解决了现有评估框架中的三个问题，从而提高了我们的评估能力：

问题1. 数据领域覆盖不足。传统时序预测基准数据集中数据来源领域覆盖不足。

问题2. 对传统方法的刻板影响。许多新的基准测试往往忽略了经典的预测算法，如线性回归预测，但是实验证明仍然存在许多场景，其中经典的预测方法效果优于SOTA模型。

问题3. 缺乏一致和灵活的流程。不同方法的性能随着实验设置的变化而变化，例如，在训练/验证/测试数据之间的划分、归一化方法的选择和超参数设置的选择。这影响了我们比较不同论文中的结果。

论文亮点：

根据数据集特征分类方法进行全面的数据集收集（解决问题1）：收集的数据集提供了多样化的特征，涵盖了来自多个领域和复杂设置的时间序列。这有助于确保更加健壮和广泛的评估。

图1: TFB较其他基准数据集覆盖的数据领域更多

图2: TFB较其他基准数据集对数据特征的覆盖更加完整
广泛覆盖现有方法并扩展对评估策略和指标的支持（解决问题2）：TFB涵盖了各种方法，包括统计学习、机器学习和深度学习方法，配备了各种评估策略和指标。这种丰富性使得能够更全面地评估各种方法和评估设置。

图3:可灵活增加的多种预测策略

图4:包括经典算法在内的丰富对比算法
灵活和可扩展的流程（解决问题3）：TFB通过其设计提高了方法比较的公平性。方法使用统一的流程进行评估，采用一致和标准化的评估策略和数据集，消除了偏见，使得性能比较更加准确。这使得能够更公平和有意义地得出关于方法有效性和效率的结论。

images_172681499579820

图5:TFB评价pipeline

总结：

时间序列预测技术在多个领域内有着广泛的应用，在云计算中，它常常被用于故障预测、需求预测、财经预测等多种场景。而现有的预测方法种类繁多，难以公平地评价其在不同场景下的性能，进而难以针对特定场景选择合适的算法。

TFB基准的提出为时间序列预测方法的评估提供了更可靠、全面和用户友好的工具。通过覆盖多个领域的数据集、支持多种预测方法以及提供统一的评估流程，TFB有望推动时间序列预测领域的进一步发展，为研究人员提供更好的方法设计和选择依据。

原文链接：https://arxiv.org/pdf/2403.20150
代码仓链接：https://github.com/decisionintelligence/TFB