华为云Stack 提供FusionInsight MRS 云原生 数据湖(以下简称“FusionInsight MRS”),采用“一湖+多样集群+数据智能”分层建设,帮助企业实现现代数据栈构建。
- 湖仓一体是构建现代数据栈的关键
IDC调研显示, 大数据 分析已在 数字化 转型战略中成为第一要务。今年1月发布的《大数据技术前瞻》中更指出:超大规模数据如何组织和管理、数据量指数级增长时效性差、数据如何打破多源异构造成的隔阂、从单域走向跨域数据融合、 数据治理 质量评估等仍是制约大数据发展的瓶颈。当前,湖仓一体是最佳 解决方案 。
在近两年的Gartner 数据管理 技术成熟曲线图中,Lakehouse湖仓一体技术已成为主流架构,其主要观点是结合 数据湖 和 数据仓库 的优势,旨在构建高效、灵活、简洁的现代数据平台。数据湖内承载全量数据,根据业务需求灵活组合,对数据进行批量、实时加工,让企业用一份数据,按需建立AI、BI、数据科学等多工作负载,加速数据在湖内流动,减少80%的数据搬迁,一个数据平台按需支持批处理、流计算、交互式查询和机器学习四大场景,根据上层业务建设多样性数仓集市。湖仓一体避免了烟囱式割裂建设导致的效率问题,进一步降低多技术平台导致的运维复杂度,降低了跨湖仓来回ETL的时延。
- 华为云Stack FusionInsight MRS云原生数据湖让数据走上“高速”路
华为在湖仓一体早有布局,在2020年华为全球分析师大会上华为云CTO张宇昕发布了FusionInsight湖仓一体架构。
当前,政企客户数据平台存在三种常见的建设方案:
(三种传统企业数据分析平台都可以平滑演进到FusionInsight MRS)
- 传统数仓。兴起于上世纪90年代,对于早期仅需求数据OLAP较为常用。随着政企客户业务高速发展,对于面对多样性数据需要匹配业务特定场景的多样化诉求,能力太过单一。
- 传统大数据。早期政企往往按业务部门需求,分开建设批处理集群、流处理集群,烟囱式建设导致建设成本居高不下。多系统平台运维复杂,还存在大量数据冗余,造成ETL来回搬迁,制约了政企数据发挥要素关键价值。
- 湖外建仓。数仓在上世纪90年代高速发展,当时 信息化 程度较高的金融、运营商等行业,大量使用了传统数仓。2010-2020年之间,随着Spark、Flink、Hive、HBase、ClickHouse等技术逐步成熟,大数据逐步成为数据处理主要平台,湖外建仓导致湖仓来回搬迁的耗时问题日益凸显,超长的数据处理链路,多系统维护的复杂度,成为政企客户释放数据价值的障碍。
FusionInsight MRS通过“一湖+多样集群+数据智能”分层建设,有效整合传统大数据、传统数仓、湖外建仓方案,实现传统大数据平台向云原生数据湖演进、传统数仓 数据集 可以向MRS多样性集市升级。
FusionInsight MRS采用湖仓一体架构,结合湖仓优势,即保障了全局一份数据,还实现了数据的一致性,进一步让实现大数据平台SQL化更好的落地;政企客户可以采用全局一个数据湖,让内部全量数据充分共享、存储与计算,实现数据资源相关的集约化;更重要的是,现代数据栈可以提供多样性集市,政企客户按照业务场景,在一个数据湖之上,匹配最适合当前业务的数仓集市,让数据计算达到极致性能;当然,近年来数智融合技术的成熟,在Gartner相关报告建设“以数据为中心的人工智能”的指导下,AI将基于数据湖,实现“数据->信息->知识->智慧”的价值闭环。
- FusionInsight MRS湖仓一体架构实现集约化建设“一企一湖”
政企客户使用湖仓一体后,可以实现:
-
- 架构开放,让企业数据平台持续演进:相较传统数仓、 数据库 系统,大数据面向海量数据分析而生,其横向扩展能力强,并随着政企客户业务的高速发展,最大单集群已经可扩至6万多节点,还可以通过集群联邦无限扩容。
- 单向流动,数据一致性好:单向流动,无交叉;湖仓一体批流一体技术的成熟,让一份数据在加工时就实现不同业务数据的分层解耦,即保障了灵活性,又保障了时效性,更是实现全局数据的一致性,保障数据的“清洁”,也进一步减轻了数据治理的负担。
- 全生命周期数据开发和数据治理,提高数据质量:数据治理是数据分析正确的前提,数据治理为政企客户提供多源数据的集成,通过数据开发编排实现数据作业的ETL和作业 自动化 ,采用数据适量实现政企客户多层级全局统一的数据质量,最终形成可视、可管、可用的高质量 数据地图 。
- 数据“可用不可见”:随着人工智能、密码学、可信执行环境三个关键技术的成熟,以保障 数据安全 与隐私为前提,数据的可信流通与用数,将通域数据联邦分析与训练实现,在数据开放、数据交易、普惠金融、联合营销、联合风控等场景大放异彩。
- FusionInsight MRS多样集市灵活匹配高速发展的业务诉求
为灵活匹配高速发展的业务诉求,FusionInsight MRS也提供了丰富的组件:
-
- 在多表复杂关联场景,大容量多表复杂关联分析组件Doris可以实现PB级数据亚秒响应的。
- 在多维分析场景,ClickHouse支持亚秒级大宽表实时OLAP,单表支持1万多列,万亿行数据。
- 在时序分析方面,专业的 时序数据库 IoTDB提供“专、快、易、稳、省”能力,压缩比相较传统时序数据库压缩比高达20多倍。
同时在众多分析数仓集市场景,还提供了GES 图引擎 、MRS HBase、Elasticsearch、Redis等其他多样集市,满足客户针对业务场景数据量、时效性等业务特点,按需、经济地建设多样数据集市的诉求。
目前,FusionInsight 智能数据湖 已服务于全球60多个国家的3500多个客户,累计交付40多万节点,最大单集群已达1万多节点,700多PB,助力政务、金融、泛企业行业加速现代数据栈建设。