检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
BY子句中不止一列,查询语句将按照GROUP BY的所有字段分组,所有字段都相同的记录将被放在同一组中。 注意事项 GroupBy在流处理表中会产生更新结果 示例 根据score及name两个字段对表student进行分组,并返回分组结果。 1 2 insert into temp SELECT
有 4 列 (id, name, description and weight). 上面的 JSON 消息是 PRODUCTS 表上的一条更新事件,其中 id = 111 的行的 weight 值从 5.18 更改为 5.15。 { "before": { "id":
incremental.snapshot.chunk.key-column 指定的列的行为决定: 如果指定的列不存在更新操作,此时可以保证 Exactly once 语义。 如果指定的列存在更新操作,此时只能保证 At least once 语义。但可以结合下游,通过指定下游主键,结合幂等性操作来保证数据的正确性。
0表示男 1表示女 2表示保密 rank Int 用户等级 有顺序的级别枚举,越高级别数字越大 register_time string 用户注册日期 单位:天 商品数据 表2 商品数据 字段名称 字段类型 字段说明 取值范围 product_id int 商品编号 脱敏 a1 int
单击右上角“保存”,保存作业和相关参数。 单击右上角“启动”,进入“启动Flink作业”页面,确认作业规格和费用,单击“立即启动”,启动作业,系统将自动跳转到Flink作业管理页面,新创建的作业将显示在作业列表中,在“状态”列中可以查看作业状态。 作业提交成功后,状态将由“提交中”变为“运行中”。运行完成后显示“已完成”。
String SSL truststore的密码。 avro-confluent.subject 否 无 String 用于在序列化期间此格式使用的注册schema的Confluent Schema Registry主题。默认情况下,'kafka'和'upsert-kafka'连接器使用'
disConfig.put(DisConsumerConfig.GROUP_ID_CONFIG, groupId); // 是否主动更新分片信息及更新时间间隔(毫秒),若有主动扩缩容需求,可以开启 disConfig.put(FlinkDisConsumer.KEY
列和数据库。 在SQL编辑区域输入下列命令创建UDAF函数,单击“执行”提交创建。 如果该客户开启了自定义函数热加载功能,注册语句会发生变化。 详情可参考注册函数。 CREATE FUNCTION AvgFilterUDAFDemo AS 'com.dli.demo.AvgFilterUDAFDemo'
作业”。 在创建作业界面,作业类型选择“Flink OpenSource SQL”,名称填写为:FlinkKafkaRds。单击“确定”,跳转到Flink作业编辑界面。 在Flink OpenSource SQL作业编辑界面,配置如下参数,其他参数默认即可。 所属队列:选择步骤1:创建队列中创建的队列。
√ RESOURCE_MANAGEMENT 弹性资源池资源管理 √ × √ √ SCALE 扩缩容弹性资源池 √ × √ √ UPDATE 更新弹性资源池 √ × √ √ CREATE 创建弹性资源池 √ × √ √ SHOW_PRIVILEGES 查看其他用户具备的弹性资源池权限
如果JDBC结果表定义了主键,则连接器以upsert模式运行,否则,连接器以Append模式运行。 upsert模式:Flink会根据主键插入新行或更新现有行,Flink可以通过这种方式保证幂等性。为保证输出结果符合预期,建议为表定义主键。 Append模式:Flink 会将所有记录解释为
L products 表有4列(id,name,description 和 weight)。JSON 消息是 products 表上的一个更新事件,表示 id = 111 的行数据上 weight 字段值从5.15变更成为 5.18。 { "data": [ {
如果JDBC结果表定义了主键,则连接器以upsert模式运行,否则,连接器以Append模式运行。 upsert模式:Flink会根据主键插入新行或更新现有行,Flink可以通过这种方式保证幂等性。为保证输出结果符合预期,建议为表定义主键。 Append模式:Flink 会将所有记录解释为
STREAMING模式下支持。 示例 下面的示例展示了一个经典的业务流水线,维度表来自 Hive,每天通过批处理流水线作业或 Flink 作业更新一次,kafka流来自实时在线业务数据或日志,需要与维度表连接以扩充流。 使用spark sql 创建 hive obs 外表,并插入数据。
create_time 否 Long 批处理作业的创建时间。是单位为“毫秒”的时间戳。 update_time 否 Long 批处理作业的更新时间。是单位为“毫秒”的时间戳。 duration 否 Long 作业运行时长,单位毫秒。 表7 批处理作业状态说明 参数名称 参数类型 说明
作业级资源隔离(暂未实现,后续版本支持) 支持独立Spark实例运行SQL作业,减少作业间相互影响。 自动弹性(暂未实现,后续版本支持) 基于队列负载和优先级实时自动更新队列配额。 弹性资源池解决方案主要解决了以下问题和挑战。 维度 原有队列,无弹性资源池时 弹性资源池 扩容时长 手工扩容时间长,扩容时长在分钟级别
Kafka消息写入(表示对应 key 的消息被删除)。Flink将根据主键列的值对数据进行分区,从而保证主键上的消息有序,因此同一主键上的更新/删除消息将落在同一分区中。 前提条件 确保已创建Kafka集群。 该场景作业需要运行在DLI的独享队列上,因此要与Kafka集群建立增强
Kafka消息写入(表示对应 key 的消息被删除)。Flink将根据主键列的值对数据进行分区,从而保证主键上的消息有序,因此同一主键上的更新/删除消息将落在同一分区中。 前提条件 确保已创建Kafka集群。 该场景作业需要运行在DLI的独享队列上,因此要与Kafka集群建立增强
单击目标表“操作”栏中的“更多”,选择“表属性”,即可在“元数据”页签查看该表的元数据信息。 在“SQL编辑器”页面查看元数据。 在管理控制台左侧,单击“SQL编辑器”。 在“SQL编辑器”页面的左侧导航栏中,选择“数据库”页签。 单击对应数据库名,进入该数据库的表列表。 鼠标左键单击
execution_graph 否 String 作业执行计划。“show_detail”为“false”时独有。 update_time 否 Long 作业更新时间。“show_detail”为“false”时独有。 queue_name 否 String 队列名称。 edge_group_ids