检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
插入语句后加入“DISTRIBUTE BY number”。 例如,在插入语句后添加“DISTRIBUTE BY 1”,可以将多个task生成的多个文件汇总为一个文件。 操作步骤 在管理控制台检查对应SQL作业详情中的“结果条数”是否正确。 检查发现读取的数据量是正确的。 图1 检查读取的数据量
from testcsvdata2source; 图3 查询结果 在OBS桶的“obs://dli-test-021/data”目录下刷新后查询,生成了csv数据文件,文件内容为insert插入的数据内容。 图4 查询结果 指定的OBS数据目录包含数据文件。 在OBS桶“dli-test
'datagen', 'rows-per-second' = '1', --每秒生成一条数据 'fields.name.kind' = 'random', --为字段user_id指定random生成器 'fields.name.length' = '7', --限制user_id长度为7
启“恢复保存点”,作业将从选择的savepoint文件中恢复消费位点及状态。同时,由于Flink Checkpoint和Savepoint生成机制及格式一致,因而,也可以通过Flink作业列表“操作”列中的“更多”>“导入保存点”,导入OBS中最新成功的Checkpoint,并从中恢复。
如上述举例中的car_infos_sink表,是否开启了Checkpoint。如果未开启则需要开启Checkpoint参数,重新运行作业生成OBS数据文件。 开启Checkpoint步骤如下。 到DLI管理控制台,左侧导航栏选择“作业管理 > Flink作业”,在对应的Flink作业所在行,操作列下单击“编辑”。
cdc-events-duplicate设置为true,并在源表上定义PRIMARY KEY。Framework将生成一个额外的有状态操作符,并使用主键对变更事件进行去重,并生成一个规范化的changelog流。 参数说明 表1 参数说明 参数 是否必选 默认值 类型 说明 format
'datagen', 'rows-per-second' = '1', --每秒生成一条数据 'fields.user_id.kind' = 'random', --为字段user_id指定random生成器 'fields.user_id.length' = '3' --限制user_id长度为3
SETS 的 GROUP BY 子句可以生成一个等效于由多个简单 GROUP BY 子句的 UNION ALL 生成的结果集,并且其效率比 GROUP BY 要高。 ROLLUP与CUBE按一定的规则产生多种分组,然后按各种分组统计数据。 CUBE生成的结果集显示了所选列中值的所有组合的聚合。
SETS 的 GROUP BY 子句可以生成一个等效于由多个简单 GROUP BY 子句的 UNION ALL 生成的结果集,并且其效率比 GROUP BY 要高。 ROLLUP与CUBE按一定的规则产生多种分组,然后按各种分组统计数据。 CUBE生成的结果集显示了所选列中值的所有组合的聚合。
SETS 的 GROUP BY 子句可以生成一个等效于由多个简单 GROUP BY 子句的 UNION ALL 生成的结果集,并且其效率比 GROUP BY 要高。 ROLLUP与CUBE按一定的规则产生多种分组,然后按各种分组统计数据。 CUBE生成的结果集显示了所选列中值的所有组合的聚合。
SETS 的 GROUP BY 子句可以生成一个等效于由多个简单 GROUP BY 子句的 UNION ALL 生成的结果集,并且其效率比 GROUP BY 要高。 ROLLUP与CUBE按一定的规则产生多种分组,然后按各种分组统计数据。 CUBE生成的结果集显示了所选列中值的所有组合的聚合。
SETS 的 GROUP BY 子句可以生成一个等效于由多个简单 GROUP BY 子句的 UNION ALL 生成的结果集,并且其效率比 GROUP BY 要高。 ROLLUP与CUBE按一定的规则产生多种分组,然后按各种分组统计数据。 CUBE生成的结果集显示了所选列中值的所有组合的聚合。
1版本。 DLI Spark 2.4.5版本有哪些优势? 表1 Spark 2.4.5版本优势 特性 说明 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释
作业列表、查询作业详情、查询作业执行计划、查询作业监控信息、批量停止作业、删除作业、批量删除作业、导出Flink作业、导入Flink作业、生成Flink SQL作业的静态流图、创建IEF消息通道、边缘Flink作业状态上报、边缘Flink作业Action回调、IEF系统事件上报。
UUID() 根据 RFC 4122 类型 4(伪随机生成)UUID,返回 UUID(通用唯一标识符)字符串。 例如“3d3c68f7-f608-473f-b60c-b0c44ad4cc4e”,UUID 是使用加密强的伪随机数生成器生成的。 BIN(INT) 以二进制格式返回 INTEGER
ent_date(), 1), 'yyyymmddhhmmss')} 修改后,Flink SQL作业能够正确解析表名,并根据EL表达式动态生成表名。 父主题: Flink SQL作业类
返回空。 cast(date as timestamp) 根据本地时区生成并返回对应DATE的年/月/日零点的TIMESTAMP值。 cast(date as string) 根据DATE的年/月/日值生成并返回“yyyy-MM-dd”格式的字符串。 父主题: 数据类型
不生效。 说明: 如果在DDS中已存在collection,则建表可以不指定schema信息,DLI会根据collection中的数据自动生成schema信息。 user 访问DDS集群用户名。 password 访问DDS集群密码。 图1 mongo的链接地址信息 插入数据 sparkSession
返回空。 cast(date as timestamp) 根据本地时区生成并返回对应DATE的年/月/日零点的TIMESTAMP值。 cast(date as string) 根据DATE的年/月/日值生成并返回“yyyy-MM-dd”格式的字符串。 父主题: 数据类型
Spark作业。 DLI支持的SDK分为SDK V3和DLI服务自行开发的SDK。 (推荐)DLI SDK V3:是根据定义API的YAML文件统一自动生成,其接口参数与服务的API一致。 具体操作请参考SDK V3版本开发指南。 DLI SDK(服务自研):是DLI服务自行开发的SDK,本手册介绍DLI