数据治理中心 DATAARTS STUDIO-文件增量迁移:文件/路径过滤器

时间:2024-09-09 17:46:33

文件/路径过滤器

  • 参数位置:在创建表/文件迁移作业时,如果源端数据源为文件类型,那么源端作业参数的高级属性中可以看到“过滤类型”参数,该参数可选择:通配符或正则表达式。
  • 参数原理:“过滤类型”选择“通配符”时, CDM 就可以通过用户配置的通配符过滤文件或路径,CDM只迁移满足指定条件的文件或路径。
  • 配置样例:
    例如源端文件名带有时间字段“2017-10-15 20:25:26”,这个时刻生成的文件为“/opt/data/file_20171015202526.data”,则在创建作业时,参数配置如下:
    1. 过滤类型:选择“通配符”
    2. 文件过滤器:配置为“*${dateformat(yyyyMMdd,-1,DAY)}*”(这是CDM支持的日期宏变量格式,详见时间宏变量使用解析)。
      图1 文件过滤
    3. 配置作业定时自动执行,“重复周期”为1天。

这样每天就可以把昨天生成的文件都导入到目的端目录,实现增量同步。

文件增量迁移场景下,“路径过滤器”的使用方法同“文件过滤器”一样,需要路径名称里带有时间字段,这样可以定期增量同步指定目录下的所有文件。

support.huaweicloud.com/usermanual-dataartsstudio/dataartsstudio_01_0112.html