什么是DLI
数据湖探索 (Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态,实现批流一体的Serverless 大数据 计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等,挖掘和探索数据价值。
功能优势
纯SQL操作
DLI提供标准SQL接口,用户仅需使用SQL便可实现海量数据查询分析。
存算分离
DLI的存储和计算解耦,分开申请和计费,降低成本的同时,提高了资源利用率。
企业级多租户
支持计算资源按租户隔离,数据权限控制到队列、作业,帮助企业实现部门间的数据共享和权限管理。
DLI核心引擎:Spark+Flink
Spark是用于大规模数据处理的统一分析引擎,聚焦于查询计算分析。DLI在 开源 Spark基础上进行了大量的性能优化与服务化改造,不仅兼容Apache Spark生态和接口,性能较开源提升了2.5倍,在小时级即可实现EB级数据查询分析。
Flink是一款分布式的计算引擎,可以用来做批处理,即处理静态的 数据集 、历史的数据集;也可以用来做流处理,即实时地处理一些实时数据流,实时地产生数据的结果。DLI在开源Flink基础上进行了特性增强和安全增强,提供了数据处理所必须的Stream SQL特性。
DLI服务架构:Serverless
DLI是无服务器化的大数据查询分析服务,其优势在于:
按量计费:真正的按使用量(扫描量/CU时)计费,不运行作业时0费用。
自动扩缩容:根据业务负载,对计算资源进行预估和自动扩缩容。