检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Bucket调优示例 创建Bucket索引表调优 Hudi表初始化 实时任务接入 离线Compaction配置 父主题: DLI Hudi开发规范
sql_containing_cte_name; 关键字 cte_name:公共表达式的名字,不允许重名。 select_statement:完整的SELECT语句。 sql_containing_cte_name:包含了刚刚定义的公共表达式的SQL语句 注意事项 定义了一个CTE后必须马上使用,否则这个CTE定义将失效。
LIMIT 1; 系统响应 返回表的历史操作记录,结果指标代表含义见下表。 表1 结果指标说明 指标名称 指标含义 version 对表操作的版本号 timestamp 当前版本操作的时间戳 userId 当前版本操作的用户id userName 当前版本操作的用户名 operation 操作名称(WRITE|CREATE
Queries)可以读到最新的commit/compaction产生的快照。对于MOR表,还会在查询中合并最新的delta log文件的内容,使读取的数据近实时。 增量查询 增量查询(Incremental Queries)只会查询到给定的commit/compaction之后新增的数据。 读优化查询
查看表属性 功能描述 查看表的属性。 语法格式 1 SHOW TBLPROPERTIES table_name [('property_name')]; 关键字 TBLPROPERTIES:TBLPROPERTIES子句允许用户给表添加key/value的属性。 参数说明 表1 参数说明
System.out.println(table); } } 查询表的分区信息(包含分区的创建和修改时间) DLI提供查询表分区信息的接口。您可以使用该接口查询数据库下表的分区信息(包括分区的创建和修改时间)。示例代码如下: 1 2 3 4 5 6 7 8
致部分或全部数据重写。 列的默认值设置要与列的类型一致,如不一致会进行类型强转,导致默认值精度丢失或者默认值为NULL。 历史数据的默认值与列第一次设置的默认值一致,多次修改列的默认值不会影响历史数据的查询结果。 设置默认值后rollback不能回滚默认值配置。 Spark SQ
通过如下操作查看。 登录DLI管理控制台,选择“作业管理 > Flink作业”。 单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取taskmanager
使用AOM监控DLI服务 配置DLI对接AOM Prometheus监控 DLI对接AOM Prometheus监控的配置项 DLI支持的Prometheus基础监控指标
该示例是从kafka的一个topic中读取数据,并使用kafka sink将数据写入到kafka的另一个topic中。 根据kafka所在的虚拟私有云和子网创建相应的跨源,并绑定所要使用的队列。然后设置安全组入向规则,使其对当前将要使用的队列放开,并根据kafka的地址测试队列连通性
true || Null(BOOLEAN) 返回 TRUE。 boolean1 AND boolean2 BOOLEAN 如果 boolean1 和 boolean2 都为 TRUE 返回 TRUE。支持三值逻辑。 例如 true && Null(BOOLEAN) 返回 UNKNOWN。
INITCAP(string) 返回新形式的 STRING,其中每个单词的第一个字符转换为大写,其余字符转换为小写。这里的单词表示字母数字的字符序列。 CONCAT(string1, string2, ...) 返回连接 string1,string2, … 的字符串。如果有任一参数为 NULL,则返回
返回所有输入值的数值之和 对每个值的一个唯一实例使用DISTINCT MAX([ ALL | DISTINCT ] expression) DOUBLE 返回所有输入值的最大值 MIN([ ALL | DISTINCT ] expression) DOUBLE 返回所有输入值的最小值 STDDEV_POP([
返回所有输入值的数值之和 对每个值的一个唯一实例使用DISTINCT MAX([ ALL | DISTINCT ] expression) DOUBLE 返回所有输入值的最大值 MIN([ ALL | DISTINCT ] expression) DOUBLE 返回所有输入值的最小值 STDDEV_POP([
database_name 是 String 待预览的表所在的数据库名称。 table_name 是 String 待预览的表名称。 表2 query参数 参数名称 是否必选 参数类型 说明 mode 否 String 预览表的模式,取值为““SYNC””或者““ASYNC””默认值为:“SYNC”。
次匹配pattern的子串,以及之后匹配pattern的子串,全都替换成指定字符串replace_string后,返回结果字符 适用于Spark3.3.1:用于将source字符串中第occurrence次匹配pattern的子串,以及之后匹配pattern的子串,全都替换成指定
SQL作业Kafka分区数增加或减少,怎样不停止Flink作业实现动态感知? 问题描述 用户执行Flink Opensource SQL, 采用Flink 1.10版本。初期Flink作业规划的Kafka的分区数partition设置过小或过大,后期需要更改Kafka区分数。 解决方案 在SQL语句中添加如下参数:
已经购买了DLI的套餐包,使用过程中仍然产生了按需费用。 排查思路 DLI提供优惠的资源套餐包,购买套餐包后,资源按照套餐包类型计费。 套餐包是用户预先购买的资源使用量配额,超出当前套餐包的额度,将自动转为按需收费。 建议您按以下顺序排查原因。 可能原因 处理措施 未购买对应的套餐包 请参考判断是否经购买了对应的套餐包
Insert作业执行过程中扫描到的错误记录数。 input_size Long 作业执行过程中扫描文件的大小,单位字节。 result_count Integer 当前作业返回的结果总条数或insert作业插入的总条数。 database_name String 记录其操作的表所在的数据库名称。类
Long 批处理作业的创建时间。是单位为“毫秒”的时间戳。 update_time 否 Long 批处理作业的更新时间。是单位为“毫秒”的时间戳。 feature 否 String 作业特性。表示用户作业使用的Spark镜像类型。 basic:表示使用DLI提供的基础Spark镜像。