数据湖批流一体是什么
数据湖探索(Data Lake Insight,简称DLI)是一款大数据分析工具,提供标准SQL,完全兼容Spark接口,支持自动弹性扩展,云上多数据源联邦分析,提供资源和数据细粒度管控的多租户能力,广泛应用于IoT,互联网,游戏等行业统计报表,行为日志分析,历史数据查询审计等场景
FusionInsight全景图 类别 场景 服务 优势 多元分析 一站式大数据平台 云原生数据湖 MRS 全球累计交付30万+节点,30%性价比提升 全托管大数据服务 数据湖探索 DLI 流、批、交互式一体,AIl in SQL,秒级扩缩容 数据仓库 云数据仓库 GaussDB(DWS)
复杂SQL实时查询,10+表格联合运算,秒级返回结果 实时入仓批流融合60万/秒/节点,T+0完成数据分析 多源数据融合,一站式统一平台,助力非传统数仓工程师便捷使用数据 多应用场景全覆盖,打造大数据时代新型数据仓库 传统数仓替换 一站式BI解决方案 数据湖分析 实时数据分析 传统数仓替换 传统数仓替换
、统一事务的能力,保障云原生数据湖内数据和模型自由流转,湖内数据全触达,实现湖、仓、智融合统一。 立即购买 管理控制台 价格计算器 应用场景 数据湖建设和持续运营 多计算引擎共享元数据 数据湖建设和持续运营 场景描述 数据湖建设和持续运营,是指数据湖的初始化建设及后续日常的海量元
程序和数据到HDFS。 购买集群 进入MapReduce管理控制台,单击“购买集群”并配置相关参数。用户可以指定集群类型用于离线数据分析和流处理任务,指定集群中预置的弹性云服务器实例规格、实例数量、数据盘类型、要安装的组件。 提交作业 您可以通过MRS控制台界面提交作业,也可以通过MRS集群节点使用命令提交作业。
建议搭配使用 数据湖探索 DLI MapReduce服务 数据湖治理中心 DGC 实时数据分析 移动互联网、IoT场景下会产生大量实时数据,为了快速获取数据价值,需要对数据进行实时分析,DWS的快速入库和查询能力可支持实时数据分析 优势 流式数据实时入库 IoT、互联网等数据经过流计算及AI服务处理后,可实时写入DWS
入自定义工作流中 提供多种图表类型实时展示作业数据输出,用户可以通过API网关服务自由访问作业数据,接入自定义工作流中 应用场景 实时流分析场景 物联网IoT场景 实时流分析场景 提供易用、低时延、高吞吐的实时流分析服务。支持Stream SQL和用户自定义作业做流分析 优势 易用
开发者体验 通过对零码、低码、流程、大屏、高低码结合等场景覆盖,统一开发者体验 Astro Flow快速构建工作流应用 满足企业中人财事物的调、转、入、离、审、评、批等任务的数智化需求 场景详情 Astro Canvas快速搭建大屏应用 满足运营,业务监控,风险预警等多种业务场景下的一站式数据实时可视化大屏展示需求
合能源等新兴业务发展。 华为云助力山东黄金建立国际一流矿山运营模式 华为云助力山东黄金实现勘探、化验、地测采选、产供销等全链路数据采集,为矿山的安全生产、经营管理提供实时、精准的数据支撑,建设基于智能决策和远程集中控制的国际一流矿山运营模式。 华为云助力深圳机场集团“智慧机场”数字化转型
之旅 开始使用 您可能感兴趣的产品 您可能感兴趣的产品 数据治理中心 DataArts Studio 一站式数据开发与治理平台 数据湖探索 DLI 流处理、批处理的融合处理分析服务 数据可视化 DLV 提供可视化组件定制和应用数据大屏
批处理、实时检索、实时流处理、批流合一计算平台等。规格:培训时长5天,每班最大人数20人 产品技术培训1.华为云数据治理高级工程师培训面向需要了解数据治理理论,使用华为数据湖治理中心 DGC进行数据治理、建模及集成的工程师。课程内容:深入讲解华为云数据湖治理中心 DGC产品知识
Apache Hudi是下一代流数据湖平台,它直接在数据湖中引入了核心的仓库和数据库功能。Hudi提供了两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。Apache Hudi,也被发音为“hoodie”,是下一代流数据湖平台。它直接在数据湖中引入了核心的仓库和数据库功
Pulsar是Apache软件基金会的顶级项目,也是下一代云原生分布式消息流平台。它集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计。Pulsar的主要特性包括:①支持多种消息模型:Pulsar提供了灵活的消息模型和直观的客户端API,支持发布-订阅模式和点对点模
易流E-TMS,以“互联网+”模式重构物流运输业务,助力企业打造端到端透明的物流业务体系;基于大数据分析赋能,提升运输管理、路径优化等能力,实现高效协同过程可视、智能优化。易流E-TMS是易流科技在物流透明管理实践15年,战略全面转型为“供应链物流行业数字化(IoT)基础设施”,
同空间的数据互相隔离,保障企业数据安全。6. 单点登录。支持多种企业内部单点登录系统对接。 数据资产底座,实时数据中台,数智一体化,湖仓一体,流批一体
发:无侵入的实现实时数仓。2. 数据开发平台数据开发平台用于大数据开发的IDE套件;满足用户对于变量开发、任务调度、运维监控以及流批一体等需求。该平台以丰富的算法组件,实现拖、拉、拽式的开发模式,以全图形化的运维界面,降低数据开发、数据挖掘以及数据运维环节对于使用者技术能
G7易流E-TMS,以“互联网+”模式重构物流运输业务,助力企业打造端到端透明的物流业务体系;基于大数据分析赋能,提升运输管理、路径优化等能力,实现高效协同过程可视、智能优化。G7易流E-TMS是易流科技在物流透明管理实践15年,战略全面转型为“供应链物流行业数字化(IoT)基础
地连接起来,从而为企业提供一套完善的供应链解决方案,实现企业间产销供、业务与财务税务的一体化运作。其社会化协作功能可确保上下游企业,包括供应商、制造商和分销商之间的商业流、物流、信息流和资金流整体运作。通过开放性的生态服务,供应链能提供更全面的供应链服务,帮助企业提升供应链管理能
数据‘主动沟通’能力,资源协同、变更管理、过程审批7.项目进度可视化 - 随时随地管理项目进度8.过程数据分析 - 多维度数据统计分析,配置型管理看板对全局把控,业数一体反哺企业业务流shiyo那个 全方位、多维度看板查看,助力数据分析,透视数据价值,可直接在甘特图中拖拽实现任务创建,直观化、可视化进行任务周期调整、绑定关联关系
数据链路实时性提升至10分钟,支撑实时线损分析、有序用电、负荷预测等 电力计量大数据 实时数据湖,千万级终端采集频率提升到分钟级 实时数据湖,千万级终端采集频率提升到分钟级 电网营销2.0 流批一体计算,数据读写性能提升8倍,电费测算提效20倍 流批一体计算,数据读写性能提升8倍,电费测算提效20倍 油气 油气云
MRS提供多种主流计算引擎:MapReduce(批处理)、Tez(DAG模型)、Spark(内存计算)、SparkStreaming(微批流计算)、Storm(流计算)、Flink(流计算),满足多种大数据应用场景,将数据进行结构和逻辑的转换,转化成满足业务目标的数据模型。 数据呈现调度 用于数据分
丰富的流生态圈。数据湖探索的流生态分为云服务生态和开源生态: 开源生态:通过增强型跨源连接建立与其他VPC的网络连接后,用户可以在数据湖探索的租户独享队列中访问所有Flink和Spark支持的数据源与输出源,如Kafka、Hbase、ElasticSearch等。 数据湖探索应用场景
什么是函数工作流 什么是函数工作流 由浅入深,带您认识华为云函数工作流 FunctionGraph 由浅入深,带您认识华为云函数工作流 FunctionGraph 函数工作流 FunctionGraph 函数工作流(FunctionGraph),是一项基于事件驱动的函数托管计算服
MapReduce提供多种主流计算引擎:MapReduce(批处理)、Tez(DAG模型)、Spark(内存计算)、SparkStreaming(微批流计算)、Storm(流计算)、Flink(流计算),满足多种大数据应用场景,将数据进行结构和逻辑的转换,转化成满足业务目标的数据模型。 基于预设的数据模型,使用
了快速获取数据价值,需要对数据进行实时分析,DWS的快速入库和查询能力可支持实时数据分析 优势 流式数据实时入库:IoT、互联网等数据经过流计算及AI服务处理后,可实时写入DWS。 实时监控与预测:围绕数据进行分析和预测,对设备进行监控,对行为进行预测,实现控制和优化。 AI融合
ERP软件系统 八神ERP,是基于各行业特性,整合商流、物流、信息流和资金流,助力企业建立扁平化、平台化的供应链;建立以交易为核心、更智能的财务管理与服务体系。 八神ERP,是基于各行业特性,整合商流、物流、信息流和资金流,助力企业建立扁平化、平台化的供应链;建立以交易为核心、更智能的财务管理与服务体系。
Hudi服务介绍 MRS Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。支持多种计算引擎,提供IUD接口,在HDFS的数据集上提供了插入更新和增量拉取的流原语。 MRS Hudi是一种数据湖的存储格式,在Hadoop文件系
业人员,社会大众和高校师生 培训方案:结合华为云服务搭建基于流计算的可视化平台 技术能力:了解流计算的关键技术,掌握华为云基于流计算的可视化解决方案 认证价值:掌握基于流计算的可视化平台搭建,实时展现业务成果,帮助企业办公效率的快速提升 认证课程详情 【中级】车联网大数据驾驶行为分析
数据湖批流一体是什么
什么是数据湖探索
数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、HetuEngine生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。
DLI支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTable、RDS、DWS、 CSS 、 OBS 、 ECS 自建 数据库 以及线下数据库的异构数据进行探索。
功能介绍
DLI用户可以通过可视化界面、Restful API、JDBC、Beeline等多种接入方式对云上CloudTable、RDS和DWS等异构数据源进行查询分析,数据格式兼容 CS V、JSON、Parquet和ORC主流数据格式。
- 三大基本功能
- SQL作业支持SQL查询功能:可为用户提供标准的SQL语句。具体内容请参考《数据湖探索SQL语法参考》。
- Flink作业支持Flink SQL在线分析功能:支持Window、Join等聚合函数、地理函数、CEP函数等,用SQL表达业务逻辑,简便快捷实现业务。具体内容请参考《数据湖探索SQL语法参考》。
- Spark作业提供全托管式Spark计算特性:用户可通过交互式会话(session)和批处理(batch)方式提交计算任务,在全托管Spark队列上进行数据分析。具体内容请参考《数据湖探索API参考》。
- 多数据源分析:
- Spark跨源连接:可通过DLI访问CloudTable,DWS,RDS和CSS等数据源。具体内容请参考《数据湖探索用户指南》。
- Flink跨源支持与多种云服务连通,形成丰富的流生态圈。数据湖探索的流生态分为云服务生态和开源生态:
- 云服务生态:数据湖探索在Flink SQL中支持与其他服务的连通。用户可以直接使用SQL从这些服务中读写数据。如DIS、OBS、CloudTable、 MRS 、RDS、 SMN 、DCS等。
- 开源生态:通过增强型跨源连接建立与其他 VPC 的网络连接后,用户可以在数据湖探索的租户授权的队列中访问所有Flink和Spark支持的数据源与输出源,如Kafka、Hbase、ElasticSearch等。
具体内容请参见《数据湖探索开发指南》。
- 存算分离
用户将数据存储到OBS后,DLI可以直接和OBS对接进行数据分析。存算分离的架构下,使得存储资源和计算资源可以分开申请和计费,降低了成本并提高了资源利用率。
存算分离场景下,DLI支持OBS在创建桶时数据冗余策略选择单AZ或者多AZ存储,两种存储策略区别如下:
- 选择多AZ存储,数据将冗余存储至多个AZ中,可靠性更高。选择多AZ存储的桶,数据将存储在同一区域的多个不同AZ。当某个AZ不可用时,仍然能够从其他AZ正常访问数据,适用于对可靠性要求较高的数据存储场景。建议优选使用多AZ存储的策略。
- 选择单AZ存储,数据仅存储在单个AZ中,但相比多AZ更加便宜。收费详情请参见OBS产品价格详情。
- 弹性资源池
弹性资源池后端采用 CCE 集群的架构,支持异构,对资源进行统一的管理和调度。详细内容可以参考用户指南的弹性资源池。
图1 弹性资源池架构图
弹性资源池的优势主要体现在以下几个方面:
- 统一资源管理
- 统一管理内部多集群和调度作业,规模可以到百万核级别。
- 多AZ部署,支持跨AZ高可用。
- 租户资源隔离
不同队列之间资源隔离,减少队列之间的相互影响。
- 分时按需弹性
- 分钟级别扩缩容,从容应对流量洪峰和资源诉求。
- 支持分时设置队列优先级和配额,提高资源利用率。
- 作业级资源隔离(暂未实现,后续版本支持)
支持独立Spark实例运行SQL作业,减少作业间相互影响。
- 自动弹性(暂未实现,后续版本支持)
基于队列负载和优先级实时自动更新队列配额。
弹性资源池解决方案主要解决了以下问题和挑战。
维度
原有队列,无弹性资源池时
弹性资源池
扩容时长
手工扩容时间长,扩容时长在分钟级别
不需要手工干预,秒级动态扩容。
资源利用率
不同队列之间资源不能共享。
例如:队列1当前还剩余10CU资源,队列2当前负载高需要扩容时,队列2不能使用队列1中的资源,只能单独对队列1进行扩容。
添加到同一个弹性资源池的多个队列,CU资源可以共享,达到资源的合理利用。
配置跨源时,必须为每个队列分配不重合的网段,占用大量VPC网段。
多队列通过弹性资源池统一进行网段划分,减少跨源配置的复杂度。
资源调配
多个队列同时扩容时不能设置优先级,在资源不够时,会导致部分队列扩容申请失败。
您可以根据当前业务波峰和波谷时间段,设置各队列在弹性资源池中的优先级,保证资源的合理调配。
- 统一资源管理
- BI工具
对接永洪BI:与永洪BI对接实现数据分析。具体内容请参考《数据湖探索开发指南》。
DLI核心引擎:Spark+Flink+HetuEngine
- Spark是用于大规模数据处理的统一分析引擎,聚焦于查询计算分析。DLI在开源Spark基础上进行了大量的性能优化与服务化改造,不仅兼容Apache Spark生态和接口,性能较开源提升了2.5倍,在小时级即可实现EB级数据查询分析。
- Flink是一款分布式的计算引擎,可以用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时地处理一些实时数据流,实时地产生数据的结果。DLI在开源Flink基础上进行了特性增强和安全增强,提供了数据处理所必须的Stream SQL特性。
- HetuEngine是提供交互式查询分析能力的开源分布式SQL查询引擎,具备高性能、低延迟的查询处理能力,支持在大规模数据存储中进行数据查询和分析。
DLI服务架构:Serverless
DLI是无服务器化的大数据查询分析服务,其优势在于:
- 按量计费:真正的按使用量(扫描量/CU时)计费,不运行作业时0费用。
- 自动扩缩容:根据业务负载,对计算资源进行预估和自动扩缩容。
如何访问DLI
云服务平台提供了Web化的服务管理平台,既可以通过管理控制台和基于HTTPS请求的API(Application programming interface)管理方式来访问DLI,又可以通过JDBC客户端连接DLI服务端。
- API方式
如果用户需要将云平台上的DLI服务集成到第三方系统,用于二次开发,可以使用API方式访问DLI服务。
具体操作请参见《数据湖探索API参考》。
- JDBC
DLI支持使用JDBC连接服务端进行数据查询操作。具体内容请参考《数据湖探索开发指南》。
- Spark-submit
DLI支持通过Spark-submit提交作业。具体内容请参考《数据湖探索开发指南》。
- 数据治理中心 DataArts Studio
数据治理中心 DataArts Studio 具有数据全生命周期管理、智能 数据管理 能力的一站式治理运营平台,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。
在DataArts Studio管理中心控制台创建数据连接即可访问DLI,进行数据分析。关于DataArts Studio的操作指导请参考《数据治理中心产品文档》。
数据湖批流一体是什么常见问题
更多常见问题 >>-
数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态, 实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理等,挖掘和探索数据价值。
-
数据湖探索DLI用户可以通过可视化界面、Restful API、JDBC、ODBC、Beeline等多种接入方式对云上CloudTable、RDS和DWS等异构数据源进行查询分析,数据格式兼容CSV、JSON、Parquet、Carbon和ORC五种主流数据格式。
-
智能数据湖运营平台(DAYU)是数据全生命周期一站式开发运营平台,提供数据集成、数据开发、数据治理、数据服务等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业客户快速构建数据运营能力。
-
数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态, 实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理等,挖掘和探索数据价值
-
随着大数据技术的发展,政企数字化转型的首要任务是充分利用大数据和分析。然而,在使用大数据技术的过程中,企业仍然面临许多挑战。为了解决这些挑战,华为云Stack推出了FusionInsight智能数据湖,以帮助企业建立完整的大数据云服务产品组合,提升数据处理能力和业务效率。
-
作为部署在政企客户本地数据中心的云基础设施,华为云Stack提供FusionInsight MRS云原生数据湖(以下简称“FusionInsight MRS”),采用“一湖+多样集群+数据智能”分层建设,加速现代数据栈构建。
数据湖批流一体是什么教程视频
最佳实践视频帮助您快速了解搭建流程 了解更多
更多相关专题
更多精彩内容
域名注册服务机构许可:黔D3-20230001 代理域名注册服务机构:新网、西数