数据湖探索 DLI-迁移Kafka数据至DLI:步骤二:数据迁移

时间:2024-04-30 09:46:22

步骤二:数据迁移

  1. 配置 CDM 数据源连接。
    1. 配置源端 MRS Kafka的数据源连接。
      1. 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。
      2. 在作业管理界面,选择“连接管理”,单击“新建连接”,连接器类型选择“MRS Kafka”,单击“下一步”。
        图2 创建MRS Kafka数据源
      3. 配置源端MRS Kafka的数据源连接,具体参数配置如下。
        表1 MRS Kafka数据源配置

        参数

        名称

        自定义MRS Kafka数据源名称。例如当前配置为“source_kafka”。

        Manager IP

        单击输入框旁边的“选择”按钮,选择当前MRS Kafka集群即可自动关联出来Manager IP。

        用户名

        2中创建的MRS Kafka用户名。

        密码

        对应MRS Kafka用户名的密码。

        认证类型

        如果当前MRS集群为普通集群则选择为SIMPLE,如果是MRS集群启用了Kerberos安全认证则选择为KERBEROS。

        本示例选择为:KERBEROS。

        更多参数的详细说明可以参考CDM上配置Kafka连接
        图3 CDM配置MRS Kafka数据源连接
      4. 单击“保存”完成MRS Kafka数据源配置。
    2. 配置目的端 DLI 的数据源连接。
      1. 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。
      2. 在作业管理界面,选择“连接管理”,单击“新建连接”,连接器类型选择“ 数据湖探索 (DLI)”,单击“下一步”。
        图4 创建DLI数据源连接
      3. 配置目的端DLI数据源连接连接参数。具体参数配置可以参考在CDM上配置DLI连接
        图5 配置DLI数据源连接参数
      4. 配置完成后,单击“保存”完成DLI数据源配置。
  2. 创建CDM迁移作业。
    1. 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。
    2. 在“作业管理”界面,选择“表/文件迁移”,单击“新建作业”。
    3. 在新建作业界面,配置当前作业配置信息,具体参数参考如下:
      图6 新建CDM作业作业配置
      1. 作业名称:自定义数据迁移的作业名称。例如,当前定义为:test。
      2. 源端作业配置,具体参考如下:
        表2 源端作业配置

        参数名

        参数值

        源连接名称

        选择1.a中已创建的数据源名称。

        Topics

        选择MRS Kafka待迁移的Topic名称,支持单个或多个Topic。当前示例为:kafkatopic。

        数据格式

        根据实际情况选择当前消息格式。本示例选择为:CDC(DRS_JSON),以DRS_JSON格式解析源数据。

        偏移量参数

        从Kafka拉取数据时的初始偏移量。本示例当前选择为:最新。

        • 最新:最大偏移量,即拉取最新的数据。
        • 最早:最小偏移量,即拉取最早的数据。
        • 已提交:拉取已提交的数据。
        • 时间范围:拉取时间范围内的数据。

        是否持久运行

        用户自定义是否永久运行。当前示例选择为:否。

        拉取数据超时时间

        持续拉取数据多长时间超时,单位分钟。当前示例配置为:15。

        等待时间

        可选参数,超出等待时间还是无法读取到数据,则不再读取数据,单位秒。当前示例不配置该参数。

        消费组ID

        用户指定消费组ID。当前使用MRS Kafka默认的消息组ID:“example-group1”。

        其他参数的详细配置说明可以参考:CDM配置Kafka源端参数

      3. 目的端作业配置,具体参考如下:
        表3 目的端作业配置

        参数名

        参数值

        目的连接名称

        选择1.b已创建的DLI数据源连接。

        资源队列

        选择已创建的DLI SQL类型的队列。

        数据库名称

        选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名,即为“testdb”。

        表名

        选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名,即为“testdlitable”。

        导入前清空数据

        选择导入前是否清空目的表的数据。当前示例选择为“否”。

        如果设置为是,任务启动前会清除目标表中数据。

        详细的参数配置可以参考:CDM配置DLI目的端参数

  3. 单击“下一步”,进入到字段映射界面,CDM会自动匹配源和目的字段。
    • 如果字段映射顺序不匹配,可通过拖拽字段调整。
    • 如果选择在目的端自动创建类型,这里还需要配置每个类型的字段类型、字段名称。
    • CDM支持迁移过程中转换字段内容,详细请参见字段转换
    图7 字段映射
  4. 单击“下一步”配置任务参数,一般情况下全部保持默认即可。

    该步骤用户可以配置如下可选功能:

    • 作业失败重试:如果作业执行失败,可选择是否自动重试,这里保持默认值“不重试”。
    • 作业分组:选择作业所属的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。
    • 是否定时执行:如果需要配置作业定时自动执行,请参见配置定时任务。这里保持默认值“否”。
    • 抽取并发数:设置同时执行的抽取任务数。这里保持默认值“1”。
    • 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。
  5. 单击“保存并运行”,回到作业管理界面,在作业管理界面可查看作业执行进度和结果。
    图8 迁移作业进度和结果查询
support.huaweicloud.com/bestpractice-dli/dli_05_0032.html