检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
聚合函数概览 DLI所支持的聚合函数如聚合函数表所示。 表1 聚合函数表 函数 命令格式 返回值 功能简介 avg avg(col), avg(DISTINCT col) DOUBLE 求平均值。 corr corr(col1, col2) DOUBLE 返回两列数值的相关系数。
DLI增强型跨源连接DWS失败怎么办? 问题现象 客户创建增强型跨源连接DLI和DWS,安全组已配置出方向规则到关联队列,使用的是密码形式的跨源认证,报DLI.0999: PSQLException: The connection attempt failed。 原因分析 出现该问题可能原因如下
计费概述 数据湖探索DLI的计费由不同的计费项组成,不同的计费项有不同的计费模式,如图1所示。 图1 DLI的计费组成 计费项 DLI的计费项包括计算计费、存储计费、扫描量计费。DLI的计费详情请参见DLI产品价格详情。您可以通过DLI提供的价格计算器,快速计算出购买资源的参考价格
LIMIT | FETCH FIRST LIMIT和FETCH FIRST都可以限制结果集中的行数。Limit和offset可以配合使用进行分页查询。 LIMIT LIMIT { count | ALL } 下面的查询限制返回的行数为5: SELECT * FROM fruit LIMIT
Hudi常见配置参数 本章节介绍Hudi重要配置的详细信息,更多配置请参考hudi官网:https://hudi.apache.org/cn/docs/0.11.0/configurations/。 提交DLI Spark SQL作业时,在SQL编辑器界面右上角的”设置”->”参数设置
INSERT INTO 命令功能 INSERT命令用于将SELECT查询结果加载到Hudi表中。 命令格式 INSERT INTO tableIndentifier select query; 参数描述 表1 INSERT INTO参数 参数 描述 tableIndentifier
API语法说明 设置写入方式 Hudi通过hoodie.datasource.write.operation参数设置写入模式。 insert: 该操作不需要通过索引去查询具体更新的文件分区,因此它的速度比upsert快。当不包含更新数据时建议使用该操作,如果存在更新数据使用该操作会出现重复数据
Spark SQL常用配置项说明 本章节为您介绍DLI 批作业SQL语法的常用配置项。 表1 常用配置项 名称 默认值 描述 spark.sql.files.maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负,则没有限制。 spark.sql.shuffle.partitions
Hive结果表 功能描述 本节介绍利用Flink写Hive的表。Hive结果表的定义,以及创建结果表时使用的参数和示例代码。详情可参考:Apache Flink Hive Read & Write Flink 支持在 BATCH 和 STREAMING 模式下从Hive写入数据。
基本概念 弹性资源池 专属的计算资源,不同弹性资源上的计算资源完全隔离,弹性资源池内的不同队列资源可以共享,并可以根据队列资源负载配置策略进行分时弹性扩缩容,满足不同的业务需求。 DLI存储资源 DLI存储资源是DLI服务内部存储的资源,用于存储数据库和DLI表,是向DLI导入数据的必备条件
Hudi表索引设计规范 规则 禁止修改表索引类型。 Hudi表的索引会决定数据存储方式,随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下: 布隆索引:Spark引擎独有索引,采用bloomfiter机制,将布隆索引内容写入到Parquet
Hudi数据表Compaction规范 mor表更新数据以行存log的形式写入,log读取时需要按主键合并,并且是行存的,导致log读取效率比parquet低很多。为了解决log读取的性能问题,Hudi通过compaction将log压缩成parquet文件,大幅提升读取性能。 规则
DLI自定义策略 如果系统预置的DLI权限,不满足您的授权要求,可以创建自定义策略。自定义策略中可以添加的授权项(Action)请参考权限策略和授权项。 目前华为云支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务、操作、资源
提交SQL作业(推荐) 功能介绍 该API用于通过执行SQL语句的方式向队列提交作业。 作业包含以下类型:DDL、DCL、IMPORT、QUERY和INSERT。其中,IMPORT与导入数据(废弃)的功能一致,区别仅在于实现方式不同。 另外,用户可使用其他API来对作业进行查询和管理
Hudi 结果表 功能描述 Flink SQL作业写Hudi表。 更多具体使用可参考开源社区文档:Hudi。 注意事项 推荐使用SparkSQL统一建表 表名必须满足Hive格式要求 表名必须以字母或下划线开头,不能以数字开头。 表名只能包含字母、数字、下划线。 表名长度不能超过128
Upsert Kafka结果表 功能描述 Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统,具有高吞吐量、内置分区、支持数据副本和容错的特性,适合在大规模消息处理场景中使用。DLI将Flink作业的输出数据以upsert的模式输出到Kafka中。
窗口 GROUP WINDOW 语法说明 Group Window定义在GROUP BY里,每个分组只输出一条记录,包括以下几种: 分组函数 在流处理表中的 SQL 查询中,分组窗口函数的 time_attr 参数必须引用一个合法的时间属性,且该属性需要指定行的处理时间或事件时间。
权限策略和授权项 如果您需要对您所拥有的DLI服务进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用DLI服务的其它功能
创建弹性资源池并添加队列 弹性资源池为DLI作业运行提供所需的计算资源(CPU和内存),用于灵活应对业务对计算资源变化的需求。 创建弹性资源池后,您可以在弹性资源池中创建多个队列,队列关联到具体的作业和数据处理任务,是资源池中资源被实际使用和分配的基本单元,即队列是执行作业所需的具体的计算资源
窗口 GROUP WINDOW 语法说明 Group Window定义在GROUP BY里,每个分组只输出一条记录,包括以下几种: 分组函数 表1 分组函数表 分组窗口函数 说明 TUMBLE(time_attr, interval) 定义一个滚动窗口。滚动窗口把行分配到有固定持续时间