CDM迁移原理

  • 全托管安全模式
  • 用户使用CDM服务时,CDM管理系统在用户VPC中发放全托管的CDM实例。此实例仅提供控制台和Rest API访问权限,用户无法通过其他接口(如SSH)访问实例。这种方式保证了CDM用户间的隔离,避免数据泄漏,同时保证VPC内不同云服务间数据迁移时的传输安全。用户还可以使用VPN网络将本地数据中心的数据迁移到云服务。

  • 抽取-写入模式
  • CDM首先从源端抽取数据然后将数据写入到目的端,数据访问操作均由CDM主动发起,对于数据源(如RDS数据源)支持SSL时,会使用SSL加密传输。迁移过程要求用户提供源端和目的端数据源的用户名和密码,这些信息将存储在CDM实例的数据库中。保护这些信息对于CDM安全至关重要。

  • 增量迁移 HOT

    文件增量迁移

    关系数据库增量迁移

    HBase/CloudTable增量迁移

    文件增量迁移、关系数据库增量迁移、HBase/CloudTable增量迁移

  • 时间宏变量使用解析 HOT

    通过时间宏变量+定时执行作业,可以实现数据库增量同步和文件增量同步。

    通过时间宏变量+定时执行作业,可以实现数据库增量同步和文件增量同步。

  • 事务模式迁移

    当CDM作业执行失败时,将数据回滚到作业开始之前的状态,自动清理目的表中的数据。

    当CDM作业执行失败时,将数据回滚到作业开始之前的状态,自动清理目的表中的数据。

  • 迁移文件时加解密

    在迁移文件到文件系统时,CDM支持通过AES-256-GCM加密、KMS加密方式对文件加解密。

    在迁移文件到文件系统时,CDM支持通过AES-256-GCM加密、KMS加密方式对文件加解密。

  • MD5校验文件一致性

    CDM数据迁移以抽取-写入模式进行,CDM首先从源端抽取数据,然后将数据写入到目的端。支持使用MD5检验文件一致性。

    CDM数据迁移以抽取-写入模式进行,CDM首先从源端抽取数据,然后将数据写入到目的端。支持使用MD5检验文件一致性。

  • 记录数据迁移入库时间 HOT

    支持连接器源端为关系型数据库时,在表字段映射中使用时间宏变量增加入库时间字段,用以记录关系型数据库的入库时间等用途。

    支持连接器源端为关系型数据库时,在表字段映射中使用时间宏变量增加入库时间字段,用以记录关系型数据库的入库时间等用途。

CDM常见问题

常见问题

  • CDM迁移性能如何?

    单个cdm.large规格实例理论上可以支持1TB~8TB/天的数据迁移,实际传输速率受公网带宽、集群规格、文件读写速度、作业并发数设置、磁盘读写性能等因素影响。

  • CDM有哪些安全防护?

    CDM是一个完全托管的服务,提供了以下安全防护能力保护用户数据安全。

    1. 实例隔离:CDM服务的用户只能使用自己创建的实例,实例和实例之间是相互隔离的,不可相互访问。
    2. 系统加固:CDM实例的操作系统进行了特别的安全加固,攻击者无法从Internet访问CDM实例的操作系统。
    3. 密钥加密:用户在CDM上创建连接输入的各种数据源的密钥,CDM均采用高强度加密算法保存在CDM数据库。
    4. 无中间存储:数据在迁移的过程中,CDM只处理数据映射和转换,而不会存储任何用户数据或片段。
  • 是否支持增量迁移?

    CDM支持增量数据迁移。利用定时任务配置和时间宏变量函数等参数,可支持以下场景的增量数据迁移:

    1. 文件增量迁移
    2. 关系数据库增量迁移
    3. HBase/CloudTable增量迁移
  • 是否支持字段转换?

    支持,CDM支持以下字段转换器:

    1. 脱敏
    2. 去前后空格
    3. 字符串反转
    4. 字符串替换
    5. 表达式转换
  • 是否支持同步作业到其他集群?

    CDM虽然不支持直接在不同集群间迁移作业,但是通过批量导出、批量导入作业的功能,可以间接实现集群间的作业迁移。