MAPREDUCE服务 MRS-创建CDL数据比较任务作业:操作场景

时间:2024-11-28 01:44:39

操作场景

数据比对即是对源端数据库中的数据和目标端Hive中的数据作数据一致性校验,如果数据不一致,CDL可以尝试修复不一致的数据。

当前数据对比任务支持手动全量任务比对。数据比对任务采用On Yarn的运行形态,比对结果会上传到HDFS目录。

  • 数据比对目前仅支持基本数据类型比对, 不支持日期、时间戳、decimal、numeric、json等特殊数据类型的比对。
  • 数据比对任务不支持数据表字段名包含数据库关键字的表进行数据比对。
  • 数据比对任务单表比较仅支持100个以内的字段进行比较, 如果单表的字段超过一百, 可以分两次指定不同的比较字段的白名单进行数据比对。
  • 当前只支持对从PgSQL抓取到Hudi的数据进行比对,如果“比较结果”为“不一致”,不一致的数据需小于或等于2000行才会生成报告地址;如果不一致的数据大于2000行,则不会生成报告地址,并且不支持修复数据。
  • 参与比对的CDL任务kafka lag不为0时会导致比对结果不一致。
support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_24775.html