云数据迁移 CDM-CDM作业配置管理:最大抽取并发数

时间:2024-12-02 10:57:37

最大抽取并发数

最大抽取并发数即集群最大抽取并发数。

此处的“最大抽取并发数”参数与集群配置处的“最大抽取并发数”参数同步,在任意一处修改即可生效。

CDM 通过数据迁移作业,将源端数据迁移到目的端数据源中。其中,主要运行逻辑如下:
  1. 数据迁移作业提交运行后,CDM会根据作业配置中的“抽取并发数”参数,将每个作业拆分为多个Task,即作业分片。

    不同源端数据源的作业分片维度有所不同,因此某些作业可能出现未严格按作业“抽取并发数”参数分片的情况。

  2. CDM依次将Task提交给运行池运行。根据集群配置管理中的“最大抽取并发数”参数,超出规格的Task排队等待运行。

因此作业抽取并发数和集群最大抽取并发数参数设置为适当的值可以有效提升迁移速度,您可参考下文有效配置抽取并发数。

  1. 集群最大抽取并发数的上限建议为vCPU核数*2,如表1所示。
    表1 集群最大抽取并发数配置建议

    规格名称

    vCPUs/内存

    集群并发数上限参考

    cdm.large

    8核 16GB

    16

    cdm.xlarge

    16核 32GB

    32

    cdm.4xlarge

    64核 128GB

    128

  2. 作业抽取并发数的配置原则如下:
    1. 迁移的目的端为文件时,CDM不支持多并发,此时应配置为单进程抽取数据。
    2. 表中每行数据大小为1MB以下的可以设置多并发抽取,超过1MB的建议单线程抽取数据。
    3. 作业抽取并发数可参考集群最大抽取并发数配置,但不建议超过集群最大抽取并发数上限。
    4. 源端为Hive数据源且使用JDBC方式读取数据时,CDM不支持多并发,此时应配置为单进程抽取数据。
    5. 目的端为 DLI 数据源时,抽取并发数建议配置为1,否则可能会导致写入失败。
support.huaweicloud.com/usermanual-cdm/cdm_01_0153.html