检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Database中的表名,由字母、数字和下划线(_)组成。 obs_path Obs路径,表示Delta表的存储位置。 timestamp_expression 时间戳,不能晚于当前时间,格式'yyyy-MM-ddTHH:mm:ss.SSS' version_code 1.3.1中查询结果中的版本号 所需权限 SQL权限
OPTIMIZE命令用于优化数据在存储中的布局,提高查询速度。 注意事项 由于Optimize是一项耗时的活动,因此需要根据更好的最终用户查询性能与优化计算时间之间的权衡来确定运行Optimized的频率。 分区表优化需要设置参数spark.sql.forcePartitionPredicatesOnPartitionedTable
Formats默认的策略是根据Part文件大小进行滚动,需要指定文件打开状态最长时间的超时以及文件关闭后的非活动状态的超时时间。对于Bulk Formats在每次创建Checkpoint时进行滚动,并且用户也可以添加基于大小或者时间等的其他条件。更多信息参考文件系统 SQL 连接器 在STREA
NOT NULL R/W Kafka消息的时间戳。 timestamp-type STRING NOT NULL R Kafka消息的时间戳类型: NoTimestampType:消息中没有定义时间戳。 CreateTime:消息产生的时间。 LogAppendTime:消息被添加到Kafka
值代表的时间戳转换为日期值。 命令格式 from_unixtime(bigint unixtime) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 unixtime 是 BIGINT UNIX格式的时间戳。代表需要转换的时间戳 此处参数应填正常UNIX格式时间戳前十位。
month month函数用于返回指定时间的月份,范围为1至12月。 命令格式 month(string date) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 date 是 DATE 或 STRING 代表需要处理的日期。 date取值为STRING类型格式时,至
不使用缓存。 lookup.cache.ttl 否 维表配置,缓存超时时间,超过该时间的数据会被剔除。格式为:{length value}{time unit label},如123ms, 321s,支持的时间单位包括: d,h,min,s,ms等,默认为ms。 lookup.max-retries
发出到目前为止已观察到的最大时间戳的 watermark ,时间戳大于最大时间戳的行被认为没有迟到。 递增时间戳: WATERMARK FOR rowtime_column AS rowtime_column - INTERVAL '0.001' SECOND。 发出到目前为止已观察到的最大时间戳减 1
指定为集群“公网访问地址”或“公网访问域名”,如果通过内网地址连接,请指定为集群“内网访问地址”或“内网访问域名”。如果通过弹性负载均衡连接,请指定为“弹性负载均衡地址”。 dbadmin:创建集群时设置的默认管理员用户名。 -W:默认管理员用户的密码。 在命令行窗口输入以下命令创建数据库“testdwsdb”。
datetrunc datetrunc函数用于计算将日期date按照datepart指定的时间单位进行截取后的日期值。 截取datepart之前的部分,除截取的部分外自动填充为默认值。可参考示例代码。 命令格式 datetrunc (string date, string datepart)
minute minute函数用于返回指定时间的分钟,范围为0到59。 命令格式 minute(string date) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 date 是 DATE 或 STRING 代表需要处理的日期。 格式为: yyyy-mm-dd yyyy-mm-dd
second second函数用于返回指定时间的秒,范围为0到59。 命令格式 second(string date) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 date 是 DATE 或 STRING 代表需要处理的日期。 格式为: yyyy-mm-dd yyyy-mm-dd
to_date to_date函数用于返回时间中的年月日。 相似函数:to_date1,to_date1函数用于将指定格式的字符串转换为日期值,支持指定转换的日期格式。 命令格式 to_date(string timestamp) 参数说明 表1 参数说明 参数 是否必选 参数类型
hour hour函数用于返回指定时间的小时,范围为0到23。 命令格式 hour(string date) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 date 是 DATE 或 STRING 代表需要处理的日期。 格式为: yyyy-mm-dd yyyy-mm-dd
分钟的窗口中。滑动窗口可以定义在事件时间(批处理、流处理)或处理时间(流处理)上。 SESSION(time_attr, interval) 定义一个会话时间窗口。 会话时间窗口没有一个固定的持续时间,但是它们的边界会根据 interval 所定义的不活跃时间所确定;即一个会话时间窗口在定义的间隔时间内没有事件出现,该窗口会被关闭。
单击“增强型跨源”,单击“创建”。 在增强型跨源创建界面,配置具体的跨源连接参数。具体参考如下。 连接名称:设置具体的增强型跨源名称。 弹性资源池:选择DLI的队列。(未添加至资源池的队列,请直接选择队列名称。) 虚拟私有云:选择步骤1:获取外部数据源的内网IP、端口和安全组获取的外部数据源的虚拟私有云。
发出到目前为止已观察到的最大时间戳的 watermark ,时间戳大于最大时间戳的行被认为没有迟到。 递增时间戳: WATERMARK FOR rowtime_column AS rowtime_column - INTERVAL '0.001' SECOND。 发出到目前为止已观察到的最大时间戳减 1
Hudi Archive操作说明 什么是Archive Archive用户清理Hudi表的元数据文件(位于.hoodie目录下,格式为 ${时间戳}.${操作类型}.${操作状态},比如20240622143023546.deltacommit.request)。对Hudi表进行的
5368709120; 提交SQL run cleanarchive on tableIdentifier/tablelocation; 按保留时间进行清理,需要配置参数: hoodie.archive.file.cleaner.policy = KEEP_ARCHIVED_FILES_BY_DAYS;
个任务并行读取时如何对表进行分区。 scan.partition.column:用于对输入进行分区的列名,该列的数据类型必须是数字,日期或时间戳。 scan.partition.num: 分区数。 scan.partition.lower-bound:第一个分区的最小值。 scan