数据仓库服务 GaussDB(DWS)-数据库、数据仓库、数据湖、湖仓一体分别是什么?:什么是数据湖?
什么是 数据湖 ?
在企业内部,数据是一类重要资产已经成为了共识。随着企业的持续发展,数据不断堆积,企业希望把生产经营中的所有相关数据都完整保存下来,进行有效管理与集中治理,挖掘和探索数据价值。
数据湖就是在这种背景下产生的。数据湖是一个集中存储各类结构化和非结构化数据的大型 数据仓库 ,它可以存储来自多个数据源、多种数据类型的原始数据,数据无需经过结构化处理,就可以进行存取、处理、分析和传输。数据湖能帮助企业快速完成异构数据源的联邦分析、挖掘和探索数据价值。
- 数据存储架构:要有足够的扩展性和可靠性,可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。
- 数据处理工具,则分为两大类:
- 第一类工具,聚焦如何把数据“搬到”湖里。包括定义数据源、制定数据同步策略、移动数据、编制数据目录等。
- 第二类工具,关注如何对湖中的数据进行分析、挖掘、利用。数据湖需要具备完善的数据管理能力、多样化的数据分析能力、全面的数据生命周期管理能力、安全的数据获取和数据发布能力。如果没有这些 数据治理 工具,元数据缺失,湖里的数据质量就没法保障,最终会由数据湖变质为数据沼泽。
随着大数据和AI的发展,数据湖中数据的价值逐渐水涨船高,价值被重新定义。数据湖能给企业带来多种能力,例如实现数据的集中式管理,帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。
对于数据仓库与数据湖的不同之处,可以类比为仓库和湖泊的区别:仓库存储着来自特定来源的货物;而湖泊的水来自河流、溪流和其他来源,并且是原始数据。
维度 |
数据湖 |
数据仓库 |
---|---|---|
应用场景 |
可以探索性分析所有类型的数据,包括机器学习、数据发现、特征分析、预测等。 |
通过历史的结构化数据进行数据分析。 |
使用成本 |
起步成本低,后期成本较高。 |
起步成本高,后期成本较低。 |
数据质量 |
包含大量原始数据,使用前需要清洗和标准化处理。 |
质量高,可作为事实依据。 |
适用对象 |
数据科学家、数据开发人员为主。 |
业务分析师为主。 |