检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异对比 DLI整理了Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异,便于您了解Spark版本升级后SQL队列上运行的作业在适配新版本引擎时的影响。 histogram_numeric函数的返回值的类型不同
Spark 2.4.x与Spark 3.3.x版本差异对比 Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异对比 Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 DLI datasourceV1表和datasourceV2表 父主题: 版本支持公告
Spark 2.4.x与Spark 3.3.x版本在通用队列的差异对比 DLI整理了Spark2.4.x与Spark3.3.x版本在通用队列的差异,便于您了解Spark版本升级后通用队列上运行的作业在适配新版本引擎时的影响。 log4j依赖从1.x版本修改为2.x版本 说明: log4j依赖从1
与传统自建Hadoop集群相比,Serverless架构的DLI还具有以下优势: 表1 Serverless DLI与传统自建Hadoop集群对比的优势 优势 维度 数据湖探索 DLI 自建Hadoop系统 低成本 资金成本 按照实际扫描数据量或者CU时收费,可变成本,成本可节约50%。
RANK() 返回值在一组值中的排名。结果是 1 加上分区顺序中当前行之前或等于当前行的行数。排名在序列中不一定连续。 DENSE_RANK() 返回值在一组值中的排名。结果是一加先前分配的等级值。与函数 rank 不同,dense_rank 不会在排名序列中产生间隙。 ROW_NUMBER()
组织制定的用来模拟决策支持类应用的一个测试集。目前,在学术界和工业界普遍用来评价决策支持技术方面应用的性能。这种商业测试可以全方位评测系统的整体商业计算综合能力,对厂商的要求更高,同时也具有普遍的商业实用意义,目前在银行信贷分析和信用卡分析、电信运营分析、税收分析、烟草行业决策分析中都有广泛的应用。 TPC-H
3.3.1版本说明 Spark 3.1.1版本说明 Spark 2.4.5版本说明 Spark 2.4.x与Spark 3.3.x版本差异对比
command,表的数据路径为$tablepath/数据文件。 图2 DLI datasource v2表 DLI各Spark版本对V1、V2表兼容性 表1 DLI各Spark版本对V1、V2表兼容列表 表类型 Spark2.3 SQL队列 Spark2.3 通用队列 Spark2
资源进行弹性伸缩,保障业务稳定性,不需要人工进行额外调试。 DLI Flink与MRS Flink的功能对比如表1所示。 表1 DLI Flink与MRS Flink功能对比 类型 特点 DLI Flink MRS Flink 特色能力 产品模式 全托管(无需人力运维集群) 半托管(需要人力运维集群)
rank rank函数用于计算一个值在一组值中的排位。如果出现并列的情况,RANK函数会在排名序列中留出空位。 使用限制 窗口函数的使用限制如下: 窗口函数只能出现在select语句中。 窗口函数中不能嵌套使用窗口函数和聚合函数。 窗口函数不能和同级别的聚合函数一起使用。 命令格式
为集群“公网访问地址”或“公网访问域名”,如果通过内网地址连接,请指定为集群“内网访问地址”或“内网访问域名”。如果通过弹性负载均衡连接,请指定为“弹性负载均衡地址”。 dbadmin:创建集群时设置的默认管理员用户名。 -W:默认管理员用户的密码。 在命令行窗口输入以下命令创建数据库“testdwsdb”。
扩容属于耗时操作,在DLI“规格变更”页面执行扩容操作后,需要等待大约10分钟,具体时长和扩容的CU值有关,等待一段时间后,可以通过刷新“队列管理”页面,对比“规格”和“实际CUs”大小是否一致来判断是否扩容成功。或者在“作业管理”页面,查看“SCALE_QUEUE”类型SQL作业的状态,如果作
法为 (RANK - 1)/(- 1)。 rank rank() INT 计算一个值在一组值中的排位。如果出现并列的情况,RANK函数会在排名序列中留出空位。 row_number row_number() over (order by col_1[,col_2 ...]) INT
为集群“公网访问地址”或“公网访问域名”,如果通过内网地址连接,请指定为集群“内网访问地址”或“内网访问域名”。如果通过弹性负载均衡连接,请指定为“弹性负载均衡地址”。 dbadmin:创建集群时设置的默认管理员用户名。 password :默认管理员用户的密码。 在命令行窗口输
表模型。关于MOR表在读写性能的对比关系如下: 对比维度 MOR表 COW表 流式写 高 低 流式读 高 低 批量写 高 低 批量读 低 高 实时入湖,表模型采用MOR表。 实时入湖一般的性能要求都在分钟内或者分钟级,结合Hudi两种表模型的对比,因此在实时入湖场景中需要选择MOR表模型。
隐式转换对照表 当数据类型不匹配时会隐式转换,但并是不是所有的数据类型都支持隐式转换。以下为当前隐式转换功能支持的数据类型转换表: 表1 隐式转换对照表 - BOOLEAN TINYINT SMALLINT INTEGER BIGINT REAL DOUBLE DECIMAL VARCHAR
扩容属于耗时操作,在DLI“弹性扩缩容”页面执行扩容操作后,需要等待大约10分钟,具体时长和扩容的CU值有关,等待一段时间后,可以通过刷新“队列管理”页面,对比“规格”和“实际CUs”大小是否一致来判断是否扩容成功。或者在“作业管理”页面,查看“SCALE_QUEUE”类型SQL作业的状态,如果作
user2,2000 d1,user3,3000 d2,user4,4000 d2,user5,5000 示例:计算员工薪水在部门内的百分比排名。 select dept, userid, sal, percent_rank() over(partition by dept
为集群“公网访问地址”或“公网访问域名”,如果通过内网地址连接,请指定为集群“内网访问地址”或“内网访问域名”。如果通过弹性负载均衡连接,请指定为“弹性负载均衡地址”。 dbadmin:创建集群时设置的默认管理员用户名。 -W:默认管理员用户的密码。 在命令行窗口输入以下命令创建数据库“testdwsdb”。
为集群“公网访问地址”或“公网访问域名”,如果通过内网地址连接,请指定为集群“内网访问地址”或“内网访问域名”。如果通过弹性负载均衡连接,请指定为“弹性负载均衡地址”。 dbadmin:创建集群时设置的默认管理员用户名。 -W:默认管理员用户的密码。 在命令行窗口输入以下命令创建数据库“testdwsdb”。