云存储_news_paper_hopp

华为云存储创新Lab论文被数据库领域顶级会议 VLDB'2023 接收，提出了一个通过感知数据分布来进行数据过滤的索引Sieve

VLDB会议(International Conference on Very Large Data Bases)是全球数据库系统领域最负盛名的三大顶级会议之一，VLDB’2023将于2023年8月28日-9月1日在加拿大温哥华召开。华为云存储创新Lab和华中科技大学合作完成的SIEVE论文在本次会议上被接收。

【论文信息】

Yulai Tong (HUST), Jiazhen Liu (HUST), Hua Wang (HUST), Ke Zhou (HUST), Rongfeng He(Huawei),Qin Zhang(Huawei), Cheng Wang (Huawei). “Sieve: A Learned Data-Skipping Index for Data Analytics”. International Conference on Very Large Data Bases (VLDB), Vancouver, Canada-August 28 to September 1, 2023.

【论文简介】

现代数据分析平台通常使用Amazon S3等外部数据存储服务相结合，以适应异构的工作负载并满足扩缩容需求。但是这种存算分离式的部署方式容易造成高昂的计算存储瓶颈，严重影响任务的执行效率。为了缓解这一瓶颈，云厂商广泛使用MinMax, Bloom过滤器等数据过滤索引来减少需要传输的数据块。然而，现有工作忽略了数据在数据块中的分布模式，从而无法有效地利用有限的存储预算。

为了解决上述问题，我们提出了一个通过感知数据分布来进行数据过滤的索引Sieve。Sieve通过拟合数据在数据块中的分布趋势来权衡索引开销与过滤效果。我们在在大量真实数据集中进行实验，结果表明Sieve能够在极少的索引开销下相较于现有工作减少40%-80%的访问数据，并且同时支持点、范围查询任务。

Data Grows As Ever, Storage Lasts For Ever

Data Grows As Ever, Storage Lasts For Ever

7*24

备案

专业服务

退订

建议反馈

售前咨询热线