检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DLI Flink与MRS Flink有什么区别? DLI Flink是天然的云原生基础架构。在内核引擎上DLI Flink进行了多处核心功能的优化,并且提供了企业级的一站式开发平台,自带开发和运维功能,免除自建集群运维的麻烦;在connector方面除了支持开源connecto
注于数据处理和分析任务本身。 具体请参考《数据湖探索用户指南》。 MRS服务Spark组件的是建立在客户的购买MRS服务所分配的虚机上,用户可以根据实际需求调整及优化Spark服务,支持各种接口调用。 MRS的这种模式提供了更高的自由度和定制性,适合有大数据处理经验的用户使用。
调度Clustering:使用可插拔的Clustering策略创建Clustering计划。 识别符合Clustering条件的文件:根据所选的Clustering策略,调度逻辑将识别符合Clustering条件的文件。 根据特定条件对符合Clustering条件的文件进行分组。每个组的数据大小应为t
具体操作请参考添加安全组规则。 ECS需安装Java JDK,JDK版本建议为1.8。配置Java环境变量JAVA_HOME。 查询弹性云服务器ECS详细信息,获取ECS的“私有IP地址”。 使用增强型跨源连接打通DLI队列和Livy实例所在的VPC网络。具体操作可以参考增强型跨源连接。
1通用队列不支持V1表: 将Spark 2.3.2的V1表升级至Spark 2.4.5的V1表。 将Spark 2.4.5的V1表修改为V2表。 升级Spark 2.4.5的V2表升级为Spark 3.3.1的V2表。 同时还需考虑Spark jar作业API语法的兼容性。 表4
示例3:使用CTAS将源表的全部数据或部分数据创建新的DLI表 示例说明:根据示例1:创建DLI非分区表中创建的DLI表table1,使用CTAS语法将table1中的数据复制到table1_ctas表中。 在使用CTAS建表的时候,可以忽略被复制的表在建表时所使用的语法,即不论在创建t
本节操作介绍删除分区表的一个或多个分区。 分区表分为两种,OBS表和DLI表。在删除分区时,DLI表和OBS表都支持利用指定条件删除分区表的一个或多个分区。OBS表还支持按指定筛选条件删除分区。 注意事项 所要删除分区的表必须是已经存在的表,否则会出错。 所要删除的分区必须是已经存在的,否则会出错,可通过语句中添加“IF
示例3:使用CTAS语句将源表的全部数据或部分数据创建新的DLI表 示例说明:根据示例1:创建DLI非分区表中创建的DLI表table1,使用CTAS语法将table1中的数据复制到table1_ctas表中。 在使用CTAS建表的时候,可以忽略被复制的表在建表时所使用的语法,即不论在创建t
EXISTS:所需创建的数据库已存在时使用,可避免系统报错。 COMMENT:对数据库的描述。 DBPROPERTIES:数据库的属性,且属性名和属性值成对出现。 参数说明 表1 参数说明 参数 描述 db_name 数据库名称,由字母、数字和下划线(_)组成。不能是纯数字,且不能以数字和下划线开头。
Integer Spark应用Driver的CPU核数。该配置项会替换sc_type中对应的默认参数。 executorMemory 否 String Spark应用的Executor内存,参数配置例如2G, 2048M。该配置项会替换“sc_type”中对应的默认参数,使用时必需带单位,否则会启动失败。
BI与Kyuubi对接,通过Kyuubi访问DLI进行数据查询和分析,简化了数据访问流程,提供了数据的统一管理和分析能力,从而获得更深入的数据洞察。 本节操作介绍PowerBI基于Kyuubi连接DLI,以访问和分析DLI中的数据的操作步骤。 操作流程 图1 操作流程 步骤1:安装并配置Kyuubi连接DLI
据查询和分析 Tableau是一款数据分析和可视化工具,支持通过拖放式界面连接到各种数据源,创建交互式和共享式的数据可视化,从而将数据转化为可操作的见解。 Kyuubi是一个分布式 SQL 查询引擎,它提供了标准的SQL接口,使用户能够方便地访问和分析存储在大数据平台中的数据。
配置Beeline通过Kyuubi连接DLI进行数据查询和分析 Beeline是数据分析师和数据工程师的重要工具之一,适用于大规模数据处理的场景。Beeline提供了的SQL引擎,使得用户可以使用SQL的语言来执行数据查询、数据分析和管理任务。 Kyuubi是一个分布式 SQL 查询引擎,它提供了标准的SQL接口,使用
查看指定表中的所有列。 语法格式 1 SHOW COLUMNS {FROM | IN} table_name [{FROM | IN} db_name]; 关键字 COLUMNS:表中的列。 FROM/IN:指定数据库,显示指定数据库下的表的列名。FROM和IN没有区别,可替换使用。
方法三:数据老化,按照业务逻辑分析大的维度表是否可以通过数据老化清理无效的维度数据从而降低数据规模。 数据量非常小的事实表 这种可以在预估很长一段时间的数据增长量的前提下使用非分区表预留稍宽裕一些的桶数来提升读写性能。 确认表内桶数 Hudi表的桶数设置,关系到表的性能,需要格外引起注意。
I进行数据查询和分析 Superset是一个开源的数据探索和可视化平台,支持对数据进行快速、直观的探索,同时支持创建丰富的数据可视化和交互式仪表板。 Kyuubi是一个分布式 SQL 查询引擎,它提供了标准的SQL接口,使用户能够方便地访问和分析存储在大数据平台中的数据。 通过将
并删除那些不满足WHERE子句条件的分区,适用于在处理具有大量分区的表时。 如果SQL查询中包含大量的嵌套left join操作,并且表有大量的动态分区时,这可能会导致在数据解析时消耗大量的内存资源,导致Driver节点的内存不足,并触发频繁的Full GC。 在这种情况下,可以
BI通过Kyuubi连接DLI进行数据查询和分析 Fine BI是一款智能可视化工具,专注于数据分析和可视化。它支持连接多种数据源,能够将复杂的数据转换为直观的图表和仪表板,快速获得数据洞察。 Kyuubi是一个分布式 SQL 查询引擎,它提供了标准的SQL接口,使用户能够方便地访问和分析存储在大数据平台中的数据。
能。 参数说明 表1 参数说明 参数 描述 db_name 数据库名称,由字母、数字和下划线(_)组成。不能是纯数字,且不能以数字和下划线开头。 示例 已参考示例中描述创建对应的数据库,如testdb。 若存在testdb数据库,则删除数据库testdb。 1 DROP DATABASE
注意事项 所要进行JOIN连接的表必须是已经存在的表,否则会出错。 此处的attr_expr_list中所涉及的字段只能是左表中的字段,否则会出错。 示例 返回选课学生的姓名及其所选的课程编号。 1 2 SELECT student_info.name, student_info