检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用DLI将CSV数据转换为Parquet数据 应用场景 Parquet是面向分析型业务的列式存储格式,这种格式可以加快查询速度,查询Parquet格式数据时,只检查所需要的列并对它们的值执行计算,也就是说,只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项
表预留稍宽裕一些的桶数来提升读写性能。 确认表内桶数 Hudi表的桶数设置,关系到表的性能,需要格外引起注意。 以下几点,是设置桶数的关键信息,需要建表前确认。 非分区表 单表数据总条数 = select count(1) from tablename(入湖时需提供); 单条数据大小
version.enable:本例配置为true,即代表开启DLI数据多版本功能,用于表数据的备份与恢复。 comment:表描述信息,TBLPROPERTIES内的描述信息支持后续修改。 orc.compress:指定orc存储的压缩方式,本例定义为ZLIB。 auto.purge:本例配
--创建视图 create view orders_by_date as select * from orders; --设置表的注释信息,可以通过设置注释信息为NULL来删除注释 COMMENT ON TABLE people IS 'master table'; --创建一个具有列名id、name的新表:
创建非弹性资源池队列(废弃,不推荐使用) 非弹性资源池模式的队列是DLI的上一代计算资源管理方式,按使用需求购买和释放资源,需要预先估计资源使用需求再进行购买。 优先推荐使用弹性资源池队列,提高资源使用的灵活性和资源利用效率。购买弹性资源池并在弹性资源池中添加队列请参考创建弹性资源池并添加队列。
func_name not found” Spark3.3.x:函数不存在的提示信息变更为失败。 升级引擎版本后是否对作业有影响: 有影响,describe function 相关API的返回信息不同。 示例代码: 执行sql: describe function dli_no(dli_no不存在)
计费概述 数据湖探索DLI的计费由不同的计费项组成,不同的计费项有不同的计费模式,如图1所示。 图1 DLI的计费组成 计费项 DLI的计费项包括计算计费、存储计费、扫描量计费。DLI的计费详情请参见DLI产品价格详情。您可以通过DLI提供的价格计算器,快速计算出购买资源的参考价格。
DLI预置的SQL模板中TPC-H样例数据说明 TPC-H样例数据简介 TPC-H(商业智能计算测试) 是交易处理效能委员会(TPC,Transaction Processing Performance Council) 组织制定的用来模拟决策支持类应用的一个测试集。目前,在学术
TUMBLE, HOP 和 CUMULATE 上进行窗口聚合。 在流模式下,窗口表值函数的时间属性字段必须是事件时间或处理时间。关于窗口函数更多信息,参见 窗口表值函数(Windowing TVFs)。 在批模式下,窗口表值函数的时间属性字段必须是 TIMESTAMP 或 TIMESTAMP_LTZ
external=true, "auto.purge"=false); -- 通过DESC FORMATTED 语句,可以查看建表的详细信息 desc formatted orders ; Describe Formatted
购买了弹性资源池CU时套餐包时,按需使用过程中优先抵扣弹性资源池CU时套餐包的规格额度,超过额度的使用量按照按需计费。弹性资源池CU时套餐包额度按订购周期重置。更多套餐包计费信息请参考套餐包计费。 本文将介绍按需计费的DLI弹性资源池的计费规则。 适用场景 包年/包月:该计费模式需要用户预先支付一定时长的费用,适用于长期、稳定的业务需求。
DLI支持的Prometheus基础监控指标 表1提供了DLI支持的Prometheus基础监控指标,AOM Prometheus支持免费存储基础指标。 除基础指标外,AOM Prometheus提供的自定义指标按计费规则付费使用。 表1 DLI支持的Prometheus监控指标
弹性资源池”,可进入弹性资源池管理页面。 选择要操作的弹性资源池,在“操作”列,单击“队列管理”,进入弹性资源池队列管理界面。 在队列管理界面会显示添加的所有队列列表信息。具体参数说明如下: 表3 弹性资源池队列管理界面参数说明 参数名 参数描述 名称 弹性资源池添加的队列名称。 类型 弹性资源池添加的队列类型。
java样例代码 开发说明 mongo只支持增强型跨源。只能使用包年包月队列。 DDS即文档数据库服务,兼容MongoDB协议。 前提条件 在DLI管理控制台上已完成创建增强跨源连接,并绑定包年/包月队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代
pyspark样例代码 开发说明 mongo只支持增强型跨源。只能使用包年包月队列。 DDS即文档数据库服务,兼容MongoDB协议。 前提条件 在DLI管理控制台上已完成创建增强跨源连接,并绑定包年/包月队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编
BY的情况下,所有行都被视为对等行,因此未绑定的前导和当前行之间的范围等于未绑定的前导和未绑定的后续之间的范围。 例如:下面的查询将salary表中的信息按照每个部门员工工资的大小进行排序。 --创建数据表并插入数据 create table salary (dept varchar, userid