数据湖探索 DLI-MySQL CDC源表:注意事项

时间:2025-02-12 15:00:46

注意事项

  • 创建Flink OpenSource SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.12”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。
  • 同步数据库数据的客户端,都会有一个唯一ID,即Server ID。同一个数据库下,建议每个MySQL CDC作业配置不同的Server ID。
    主要原因如下:
    • MySQL SERVER会根据该ID来维护网络连接以及Binlog位点。因此如果有大量相同的Server ID的客户端一起连接MySQL SERVER,可能导致MySQL SERVER的CPU陡增,影响线上业务稳定性。
    • 此外,多个作业共享相同的Server ID,会导致Binlog位点错乱,多读或少读数据,因此建议每个CDC作业都配置不同的Server ID。
  • MySQL CDC源表暂不支持定义Watermark。如果您需要进行窗口聚合,请参考常见问题描述。
  • 若连接DWS、MySQL等支持upsert的sink源,需要在sink表的创建语句中定义主键,请参考示例中printSink建表语句。
  • 当使用MySQ CDM 源表时,请不要在源表参数里手动关闭debezium.connect.keep.alive,确保debezium.connect.keep.alive=true(默认值为true)。

    如果手动关闭了debezium.connect.keep.alive,一旦发生拉取Binlog线程与MySQL服务器的连接连接异常,拉取Binlog线程不会尝试自动重连,这可能导致无法正常从源端拉取binlog日志。

support.huaweicloud.com/sqlref-flink-dli/dli_08_0387.html