VLDB会议(International Conference on Very Large Data Bases)是全球数据库系统领域最负盛名的三大顶级会议之一,VLDB’2023将于2023年8月28日-9月1日在加拿大温哥华召开。华为云存储创新Lab和华中科技大学合作完成的SIEVE论文在本次会议上被接收。
【论文信息】
Yulai Tong (HUST), Jiazhen Liu (HUST), Hua Wang (HUST), Ke Zhou (HUST), Rongfeng He(Huawei),Qin Zhang(Huawei), Cheng Wang (Huawei). “Sieve: A Learned Data-Skipping Index for Data Analytics”. International Conference on Very Large Data Bases (VLDB), Vancouver, Canada-August 28 to September 1, 2023.
【论文简介】
现代数据分析平台通常使用Amazon S3等外部数据存储服务相结合,以适应异构的工作负载并满足扩缩容需求。但是这种存算分离式的部署方式容易造成高昂的计算存储瓶颈,严重影响任务的执行效率。为了缓解这一瓶颈,云厂商广泛使用MinMax, Bloom过滤器等数据过滤索引来减少需要传输的数据块。然而,现有工作忽略了数据在数据块中的分布模式,从而无法有效地利用有限的存储预算。
为了解决上述问题,我们提出了一个通过感知数据分布来进行数据过滤的索引Sieve。Sieve通过拟合数据在数据块中的分布趋势来权衡索引开销与过滤效果。我们在在大量真实数据集中进行实验,结果表明Sieve能够在极少的索引开销下相较于现有工作减少40%-80%的访问数据,并且同时支持点、范围查询任务。