华为云Stack 智能数据湖 解决方案支持湖仓一体,其中,HetuEngine河 图引擎 承担一站式SQL分析引擎角色,使能跨源、跨域的 一体化 分析落地,基于 云原生 架构,让“逻辑 数据湖 ”大规模数据融合分析提效50倍。
背景
随着 大数据 平台在各行业的快速发展,大 数据集 群呈现零散式建设、湖仓割裂、来回搬迁等新挑战,客户对于跨域高效、跨源易用、云原生化提出了更高的要求。
传统方案普遍涉及了下图中的1、2点。对于单企业、小规模业务场景而言,在业务发展初期基本可满足需求,但是对技术开发、维护人员的技能要求较高,一旦业务发生变化就需要重新定制开发,手工变更部署方案,易造成信息泄露。
为了打造一款成熟、可商用的 虚拟化 引擎,我们需要站在客户实际使用场景角度出发,系统性、端到端地设计一款安全、易用、易运维、可扩展的数据虚拟化引擎。
实践经验表明,上图中3、4、5、6点是决定一款数据虚拟化引擎能否满足业务实际需求、能否高效上线业务的关键。
HetuEngine架构
HetuEngine是华为云FusionInsight团队自研的一款高性能分布式SQL查询&数据虚拟化引擎,可与大数据生态无缝融合,实现海量数据秒级查询;支持多源异构协同,使能数据湖内/湖间/湖仓一站式SQL融合分析。
图 HetuEngine架构图
我们完全基于云原生2.0的技术理念实施了HetuEngine顶层架构设计,这一点决定了HetuEngine从一开始就是为 云服务 化、“湖仓一体”而生。统一的云服务层在带来极简操作和极致运维体验的同时,也为引擎层的多实例、 弹性伸缩 、跨域跨源统一访问入口、数据虚拟化等能力奠定了软件架构基础。
面向跨域、跨源、云原生三大维度,HetuEngine分别具有如下架构优势:
1. 跨域联邦分析:SQL化、一致性体验、动态感知
HetuEngine对外提供标准、统一的SQL访问入口,同时通过后台管理接口的实现在线、实时、无损业务的运维变更操作,并保证所有变更操作能够快速同步到每一个计算实例,从而保证了SQL入口的一致性体验。
与此同时,跨域联邦查询场景中,每个地域的HetuEngine能够做到自动感知其它地域对外开放的元数据信息,按需动态实时感知和获取,从而降低了跨域元数据同步的安全风险和负载压力。
HetuEngine内置提供了高性能安全加密传输通道,使得跨地域间网络通信问题迎刃而解。该跨域联邦SQL分析方案安全高效,适用于公网、专网等多种网络类型混合组网,支持穿透NAT。支持亿级数据秒级跨域,支持去中心化跨域组网,支持受控对外开放数据,跨域协同效率提升50倍。
2. 跨源协同分析:低门槛、高性能、安全可靠
HetuEngine提供可视化的数据源信息管理页面,实现一站式数据源信息配置和实时在线生效,避免了每次做数据源信息变更需要重启计算引擎实例的麻烦。针对不同数据源类型,HetuEngine会针对性提供不同的性能优化配置参数,并支持设置与具体业务环境需求强相关的个性化配置参数,通过前台页面一站式完成配置,免去了95%的运维负担。
在性能方面,HetuEngine加强了对DWS、ES等数据源的计算下推能力,实现了相对 开源 软件提速5倍的高性能跨源协同分析效果。同时,HetuEngine完成了对Hive SQL语法兼容性增强,在支持100% Presto SQL语法的同时,还可支撑90%的HQL业务平滑 迁移 。
3. 云原生加持:弹性伸缩、动态多租、统一入口
得益于云原生技术架构,HetuEngine允许管理员通过后台接口进行可视化的统一运维操作,从而完成一键式动态部署、多计算实例在线滚动重启、人工/全自动触发的计算实例弹性伸缩(无损业务),完成多租户的资源配置变更及动态生效。
HetuEngine的统一服务化入口可以很容易帮助用户实现SQL客户端的接入和业务请求的提交,极大降低了业务用户的学习成本和开发成本。同时也帮助业务应用开发人员实现将业务层与后台服务层解耦的目的,为后期的持续扩容与升级变更操作带来的隐形福利。
HetuEngine的多计算实例架构天然具备横向扩展的优势,可以满足“湖仓一体”对海量数据、多实例、高并发的长远需求。
最佳实践
随着金融业的快速发展和大数据技术生态的不断完善,近年来工行与华为持续联合创新,通过引入FusionInsight智能数据湖,工行大数据技术从仅对大数据批量加工,已延展到大数据实时计算、联机查询、 数据可视化 、安全管控等金融应用场景,不断提升工行服务实体经济的能力,倾力打造服务于经济高质量发展的数字工行。 目前工行已建成同业最大的单集群,已部署上线的FusionInsight MRS云原生数据湖和DWS云 数据仓库 集群规模达2000+节点,支撑了300+总行应用、分行及集团子公司的平台化大数据应用开发,日均承载批量计算作业数达20万+,强力支撑了行内、行外的金融数据服务。
中国工商银行大数据平台支撑了全行约13000名数据分析师的交互式查询业务场景,原先通过离线计算引擎来支撑,分析师普遍反映响应时间过长。从2021年工行开始引入交互式查询引擎(HetuEngine),使得分析师灵活查询的响应时间从平均1000秒降低至20秒,提效50倍,目前已将HetuEngine面向全行推广。
在业界现有的跨域、跨源分析引擎中,能够同时做到以下几点的,当前已知的仅有HetuEngine,这得益于:
• 三位一体:跨域、跨源、交互式查询一体化;
• 云原生:动态多租户、弹性伸缩、统一入口;
• 规模商用:提供端到端的安全 解决方案 ;
目前,HetuEngine已经在政务、金融、运营商、大企业行业规模交付,对原有交互式查询、跨源跨域分析业务提升倍数,并驱动客户业务持续创新。
未来,HetuEngine还将在自学习优化、SQL安全、物化视图、索引、存储等维度,继续构筑核心竞争力,加速客户“湖仓一体”架构落地和 数字化 转型。
华为云FusionInsight MRS云原生数据湖提供一个架构实现三种数据湖,即离线数据湖,一站式提供AI、BI多引擎,规模最大支持6万+;实时数据湖,分钟级供数,全自助分析,时效从T+1到T+0;逻辑数据湖,HetuEngine实现跨湖、跨仓协同提效50倍。目前FusionInsight MRS已经用于60多个国家和地区,联合800+ISV服务于3000+政务、金融、运营商、泛企业客户,助力客户构建一企一湖,一城一湖。