数据治理中心 DATAARTS STUDIO-HBase/CloudTable增量迁移

时间:2024-09-04 18:27:59

HBase/CloudTable增量迁移

使用 CDM 导出HBase(包括 MRS HBase、 FusionInsight HBase、Apache HBase)或者 表格存储服务 (CloudTable)的数据时,支持导出指定时间段内的数据,配合CDM的定时任务,可以实现HBase/CloudTable的增量迁移。

如果配置了时间宏变量,通过 DataArts Studio 数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。

在创建CDM表/文件迁移的作业,源连接选择为HBase连接或CloudTable连接时,高级属性的可选参数中可以配置时间区间。

图1 HBase时间区间
  • 起始时间(包含该值),格式为“yyyy-MM-dd HH:mm:ss”,表示只抽取该时间及以后的数据。
  • 终止时间(不包含该值),格式为“yyyy-MM-dd HH:mm:ss”,表示只抽取该时间以前的数据。

这2个参数支持配置为时间宏变量,例如:

  • 起始时间配置为${dateformat(yyyy-MM-dd HH:mm:ss, -1, DAY)}时,表示只导出昨天以后的数据。
  • 终止时间配置为${dateformat(yyyy-MM-dd HH:mm:ss)}时,表示只导出当前时间以前的数据。

这2个参数同时配置后,CDM就只导出前一天内的数据,再将该作业配置为每天0点执行一次,就可以增量同步每天新生成的数据。

support.huaweicloud.com/bestpractice-dataartsstudio/dataartsstudio_05_0007.html