检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用DLI将CSV数据转换为Parquet数据 应用场景 Parquet是面向分析型业务的列式存储格式,这种格式可以加快查询速度,查询Parquet格式数据时,只检查所需要的列并对它们的值执行计算,也就是说,只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项
隐式转换对照表 当数据类型不匹配时会隐式转换,但并是不是所有的数据类型都支持隐式转换。以下为当前隐式转换功能支持的数据类型转换表: 表1 隐式转换对照表 - BOOLEAN TINYINT SMALLINT INTEGER BIGINT REAL DOUBLE DECIMAL VARCHAR
数据类型隐式转换 简介 隐式转换对照表
转换函数 cast转换函数 HetuEngine会将数字和字符值隐式转换成正确的类型。HetuEngine不会把字符和数字类型相互转换。例如,一个查询期望得到一个varchar类型的值,HetuEngine不会自动将bigint类型的值转换为varchar类型。 如果有必要,可以将值显式转换为指定类型。
视图相关 创建视图 删除视图
类型转换函数 语法格式 CAST(value AS type) 语法说明 类型强制转换。 注意事项 若输入为NULL,则返回NULL。 cast函数不支持将字符串转换为json对象类型。 示例一:将amount值转换成整型 将amount值转换成整型。 insert into temp
类型转换函数 语法格式 CAST(value AS type) 语法说明 类型强制转换。 注意事项 若输入为NULL,则返回NULL。 示例 将amount值转换成整型。 insert into temp select cast(amount as INT) from source_stream;
类型转换函数 表1 类型转换函数 SQL函数 描述 CAST(value AS type) 返回被强制转换为类型 type 的新值。 例如 CAST('42' AS INT) 返回 42; CAST(NULL AS VARCHAR) 返回 VARCHAR 类型的 NULL。 TYPEOF(input)
None 服务介绍 数据湖探索 DLI 介绍什么是数据湖探索 02:47 数据湖探索DLI产品介绍 功能介绍 数据湖探索 DLI 熟悉数据湖探索控制台 03:10 数据湖探索控制台介绍 操作指导 数据湖探索 DLI 介绍怎样创建提交SQL作业 07:36 数据湖探索SQL作业入门指导
配置DBT连接DLI进行数据调度和分析 DBT(Data Build Tool),是一款开源的数据建模和转换工具,运行在Python环境上。DBT连接DLI,用来定义和执行SQL转换,支持从数据集成、转换到分析的整个数据生命周期管理,适用于大规模数据分析项目和复杂的数据分析场景。
创建并提交SQL作业 SQL编辑器简介 SQL作业编辑器支持使用SQL语句执行数据查询操作。 支持SQL2003,兼容SparkSQL,详细语法描述请参见《数据湖探索SQL语法参考》。 在总览页面,单击左侧导航栏中的“SQL编辑器”或SQL作业简介右上角的“创建作业”,可进入“SQL编辑器”页面。
原生数据类型 DLI支持原生数据类型,请参见表1。 表1 原生数据类型 数据类型 描述 存储空间 范围 OBS表支持情况 DLI表支持情况 INT 有符号整数 4字节 -2147483648~2147483647 是 是 STRING 字符串 - - 是 是 FLOAT 单精度浮点型
简介 数据类型隐式转换指用户通过客户端访问HetuEngine资源时,当查询的数据类型和表的数据类型不匹配时,HetuEngine能自动进行数据类型转换,避免用户在使用时因强数据类型校验带来的不便。当前在插入数据(Insert)、条件判断(Where)、运算操作(+、-、*、/)以及函数调用(连接操作
包年/包月计费模式的DLI资源可以和按需计费模式相互转换吗? DLI暂不支持变更资源的计费模式。 请您根据业务场景提前做好资源规划,如资源消耗较大,建议您选择包年/包月或购买套餐包的形式更加优惠。 自建队列购买方式如下: 购买队列请参考创建队列。 弹性资源池购买方式如下: 具体弹
CONVERT TO DELTA 命令功能 CONVERT TO DELTA 命令将现有的 Parquet 表就地转换为 Delta 表。 此命令会列出目录中的所有文件,创建 Delta Lake 事务日志来跟踪这些文件,并通过读取所有 Parquet 文件的页脚来自动推断数据架构。
分区表的流式读取要求在 hive 元存储的视图中以原子方式添加每个分区。否则,将使用添加到现有分区的新数据。 流式读取不支持 Flink DDL 中的水印语法。这些表不能用于窗口运算符。 语法格式 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
conv conv函数用于进制转换,将from_base进制下的num转化为to_base进制下面的数。 命令格式 conv(BIGINT num, INT from_base, INT to_base) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 num 是 DO
ordinal ordinal函数用于将输入变量按从小到大排序后,返回nth指定位置的值。。 命令格式 ordinal(bigint <nth>, <var1>, <var2>[,...]) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 nth 是 BIGINT类型。
转换为时间戳。 CURRENT_WATERMARK(rowtime) - 返回给定时间列属性rowtime 的当前水印,如果管道中的当前操作没有可用的上游操作的公共水印时则为 NULL。 函数的返回类型被推断为与提供的时间列属性匹配,但调整后的精度为 3。例如时间列属性为 TIMESTAMP_LTZ(9),则函数将返回
obs://obs1/sampledata.csv 表头:无/有 当“数据格式”为“CSV”时,该参数有效。设置导入数据源是否含表头。 选中“高级选项”,勾选“表头:无”前的方框,“表头:无”显示为“表头:有”,表示有表头;取消勾选即为“表头:无”,表示无表头。 - 自定义分隔符 当“数据格式”为