数据湖探索 DLI-文件系统输出流(推荐):注意事项

时间:2024-11-16 13:21:40

注意事项

  • 使用文件系统输出流的Flink作业必须开启checkpoint,保证作业的一致性。
  • 为了避免数据丢失或者数据被覆盖,开启作业异常自动重启或者手动重启,需要配置为“从checkpoint恢复”
  • checkpoint间隔设置需在输出文件实时性、文件大小和恢复时长之间进行权衡,比如10分钟。
  • checkpoint支持如下两种模式:
    • AtLeastOnce:事件至少被处理一次。
    • ExactlyOnce:事件仅被处理一次。
  • 使用文件系统输出流写入数据到OBS时,应避免多个作业写同一个目录的情况。
    • OBS对象存储桶的默认行为为覆盖写,可能导致数据丢失。
    • OBS并行文件系统桶的默认行为追加写,可能导致数据混淆。

    因为以上OBS桶类型行为的区别,为避免作业异常重启可能导致的数据异常问题,请根据您的业务需求选择OBS桶类型。

support.huaweicloud.com/sqlref-flink-dli/dli_08_0267.html