数据治理中心 DATAARTS STUDIO-文件格式介绍:文件格式的公共参数

时间:2024-12-27 10:13:32

文件格式的公共参数

  • 启动作业标识文件

    这个主要用于自动化场景中, CDM 配置了定时任务,周期去读取源端文件,但此时源端的文件正在生成中,CDM此时读取会造成重复写入或者是读取失败。所以,可以在源端作业参数中指定启动作业标识文件为“ok.txt”,在源端生成文件成功后,再在文件目录下生成“ok.txt”,这样CDM就能读取到完整的文件。

    另外,可以设置超时时间,在超时时间内,CDM会周期去查询标识文件是否存在,超时后标识文件还不存在的话,则作业任务失败。

    启动作业标识文件本身不会被迁移。

  • 作业成功标识文件

    文件系统为目的端的时候,当任务成功时,在目的端的目录下,生成一个空的文件,标识文件名由用户来指定。一般和“启动作业标识文件”搭配使用。

    这里需要注意的是,不要和传输的文件混淆,例如传输文件为“finish.txt”,但如果作业成功标识文件也设置为“finish.txt”,这样会造成这两个文件相互覆盖。

  • 过滤器

    使用CDM迁移文件的时候,可以使用过滤器来过滤文件。支持通过通配符或时间过滤器来过滤文件。

    • 选择通配符时,CDM只迁移满足过滤条件的目录或文件。
    • 选择时间过滤器时,只有文件的修改时间晚于输入的时间才会被传输。

    例如用户的“/table/”目录下存储了很多数据表的目录,并且按天进行了划分DRIVING_BEHAVIOR_20180101~DRIVING_BEHAVIOR_20180630,保存了DRIVING_BEHAVIOR从1月到6月的所有数据。如果只想迁移DRIVING_BEHAVIOR的3月份的表数据,那么需要在作业第一步指定源目录为“/table”,过滤类型选择“通配符”,然后指定“路径过滤器”“DRIVING_BEHAVIOR_201803*”

support.huaweicloud.com/bestpractice-dataartsstudio/dataartsstudio_05_0016.html