HetuEngine简介
HetuEngine是自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合,实现海量数据秒级交互式查询;支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。其能够支持跨源(多种数据源,如Hive,HBase,GaussDB(DWS),ClickHouse等),跨域(多个地域或数据中心)的快速联合查询,尤其适用于Hadoop集群(MRS)的Hive、Hudi数据的交互式快速查询场景。
HetuEngine结构
常见概念介绍
- 云服务层
HetuEngine CLI/JDBC
HetuEngine的客户端,使用者通过客户端向服务端提交查询请求,然后将执行结果取回并展示。
HSBroker
HetuEngine的服务管理,用作计算实例的资源管理校验,健康管理与自动维护等。
HSConsole
对外提供数据源信息管理,计算实例管理,自动化任务的查看等功能的可视化操作界面和RESTful接口。
HSFabric
提供SQL统一访问入口及跨域(DC)高性能安全数据传输。
- 引擎层
Coordinator
HetuEngine计算实例的管理节点,提供SQL接收、SQL解析、生成执行计划、执行计划优化、分派任务和资源调度等能力。
Worker
HetuEngine计算实例的工作节点,提供数据源数据并行拉取,分布式SQL计算等能力。
HetuEngine跨源功能
- 功能简介
出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临数据源种类繁多、数据集结构化混合、相关数据存放分散等困境,导致跨源查询开发成本高,跨源复杂查询耗时长。
HetuEngine提供了统一标准SQL实现跨源协同分析,简化跨源分析操作。
- 关键技术和优势
计算下推
在通过HetuEngine进行跨源协同分析时,为了提升访问效率,HetuEngine从下表所示维度增强了计算下推的能力。
多源异构
协同分析既支持Hive、GaussDB等结构化数据源,也支持HBase等非结构化数据源。
全局元数据
对于非结构化数据源HBase,提供映射表方式将非结构化SCHEMA映射成结构化SCHEMA,实现HetuEngine对HBase的无差别SQL访问;对于数据源信息,提供全局管理。
全局权限控制
数据源的权限均可通过HetuEngine开放给Ranger集中管理,统一控制。
HetuEngine跨域功能
- 功能简介
HetuEngine提供统一标准SQL对分布于多个地域(或数据中心)的多种数据源实现高效访问,屏蔽数据在结构、存储及地域上的差异,实现数据与应用的解耦。
- 关键技术和优势
无单点瓶颈
HSFabric可进行水平扩展,多通道并行传输,速率最大化,跨地域延迟不再成为瓶颈。
计算资源利用
将数据压缩,序列化的任务下推到Worker并行计算。
高效序列化
优化数据序列化格式,同等数据量级下,更低的数据传输量。
流式传输
基于HTTP 2.0 stream, 保证HTTP协议通用性的同时,减少大量数据传输中RPC重复调用。
断点续传
防止数据传输过程中连接异常断开后重传大量数据。
流量管控
支持按地区限制数据传输所占用的网络带宽,避免在跨地域有限带宽场景下因流量独占而影响其他业务的正常使用。