检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开启Checkpoint Flink Checkpoint机制可以保证Flink平台可感知内部状态的精确一致,但对于自定义Source/Sink或者有状态算子,需要合理实现ListCheckpointed接口,来保证业务数据需要的可靠性。 为了避免因业务修改等需要,手动重启作业后,不丢失数据:
后继续尝试进行缩容,直至下一个定时任务开始。 当一个定时任务没有扩容或者缩容到目标CU值时,系统会在约15分钟后再次触发扩缩计划,直到下一个定时任务开始。 创建弹性扩缩容定时任务 如果只设定扩容或者缩容,只需创建一个弹性扩缩容定时任务。设定“任务名称”、“最终CUs”和“执行时间”即可,具体请参考表1。
配置DBT连接DLI进行数据调度和分析 DBT(Data Build Tool),是一款开源的数据建模和转换工具,运行在Python环境上。DBT连接DLI,用来定义和执行SQL转换,支持从数据集成、转换到分析的整个数据生命周期管理,适用于大规模数据分析项目和复杂的数据分析场景。
e提供了的SQL引擎,使得用户可以使用SQL的语言来执行数据查询、数据分析和管理任务。 Kyuubi是一个分布式 SQL 查询引擎,它提供了标准的SQL接口,使用户能够方便地访问和分析存储在大数据平台中的数据。 通过将Beeline与Kyuubi对接,用户可以利用Kyuubi访问
实时任务接入 实时作业一般由Flink Sql或Sparkstreaming来完成,流式实时任务通常配置同步生成compaction计划,异步执行计划。 Flink SQL作业中sink端Hudi表相关配置如下: create table hudi_sink_table ( //
游戏公司不同部门日常通过游戏数据分析平台,分析每日新增日志获取所需指标,通过数据来辅助决策。例如:运营部门通过平台获取新增玩家、活跃玩家、留存率、流失率、付费率等,了解游戏当前状态及后续响应活动措施;投放部门通过平台获取新增玩家、活跃玩家的渠道来源,来决定下一周期重点投放哪些平台。 优势 高效的S
好的作业执行环境。 您可以根据作业的计算需求和数据规模分配资源、调整任务执行顺序,调度不同的弹性资源池或队列资源以适应不同的工作负载。待提交作业所需的CUs需小于等于弹性资源池的剩余可用CUs,才可以确保作业任务的正常执行。 本节操作介绍查看弹性资源池计算资源使用情况、作业所需CU数的查看方法。
Spark异步任务执行表compaction参数设置规范 写作业未停止情况下,禁止手动执行run schedule命令生成compaction计划。 错误示例: run schedule on dsrTable 如果还有别的任务在写这张表,执行该操作会导致数据丢失。 执行run
弹性资源池后端采用CCE集群的架构,支持异构,对资源进行统一的管理和调度。详细内容可以参考用户指南的弹性资源池。 图1 弹性资源池架构图 弹性资源池的优势主要体现在以下几个方面: 统一资源管理 统一管理内部多集群和调度作业,规模可以到百万核级别。 多AZ部署,支持跨AZ高可用。 租户资源隔离
Compaction是MOR表非常重要且必须执行的维护手段,对于实时任务来说,要求Compaction执行合并的过程必须和实时任务解耦,通过周期调度Spark任务来完成异步Compaction,这个方案的关键之处在于如何合理的设置这个周期,周期如果太短意味着Spark任务可能会空跑,周期如果太长可能会积压太多的Compaction
Superset是一个开源的数据探索和可视化平台,支持对数据进行快速、直观的探索,同时支持创建丰富的数据可视化和交互式仪表板。 Kyuubi是一个分布式 SQL 查询引擎,它提供了标准的SQL接口,使用户能够方便地访问和分析存储在大数据平台中的数据。 通过将Superset与Kyu
Spark作业使用咨询 DLI Spark作业是否支持定时周期任务作业 DLI Spark不支持作业调度,用户可以通过其他服务,例如数据湖管理治理中心DataArts Studio服务进行调度,或者通过API/SDK等方式对作业进行自定义调度 。 使用DataArts Studio服务进行作业开发请参考《数据治理中心用户指南》。
多种数据源,能够将复杂的数据转换为直观的图表和仪表板,快速获得数据洞察。 Kyuubi是一个分布式 SQL 查询引擎,它提供了标准的SQL接口,使用户能够方便地访问和分析存储在大数据平台中的数据。 通过将Fine BI与Kyuubi对接,用户可以利用Kyuubi访问DLI进行数据
种数据源,创建交互式和共享式的数据可视化,从而将数据转化为可操作的见解。 Kyuubi是一个分布式 SQL 查询引擎,它提供了标准的SQL接口,使用户能够方便地访问和分析存储在大数据平台中的数据。 通过将Tableau与Kyuubi对接,用户可以利用Kyuubi访问DLI进行数据
Hbase结果表 功能描述 DLI将作业的输出数据输出到HBase中。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发
Hbase结果表 功能描述 DLI将作业的输出数据输出到HBase中。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发
Hbase结果表 功能描述 DLI将作业的输出数据输出到HBase中。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发
功能描述 创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发
功能描述 创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发
功能描述 创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发