数据湖探索 DLI-迁移Elasticsearch数据至DLI:步骤二:数据迁移

时间:2024-08-28 09:08:29

步骤二:数据迁移

  1. 配置 CDM 数据源连接。
    1. 配置源端 CSS 的数据源连接。
      1. 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。
      2. 在作业管理界面,选择“连接管理”,单击“新建连接”,连接器类型选择“ 云搜索服务 ”,单击“下一步”。
        图1 创建 CS S数据源
      3. 配置源端CSS的数据源连接,具体参数配置如下。详细参数配置可以参考CDM上配置CSS连接
        表1 CSS数据源配置

        参数

        名称

        自定义CSS数据源名称。例如当前配置为“source_css”。

        Elasticsearch服务器列表

        单击输入框旁边的“选择”按钮,选择当前CSS集群即可自动关联出来Elasticsearch服务器列表。

        安全模式认证

        如果所需连接的CSS集群在创建时开启了“安全模式”,该参数需设置为“是”,否则设置为“否”。

        本示例选择为“否”。

        图2 CDM配置CSS数据源
      4. 单击“保存”完成CSS数据源配置。
    2. 配置目的端 DLI 的数据源连接。
      1. 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。
      2. 在作业管理界面,选择“连接管理”,单击“新建连接”,连接器类型选择“ 数据湖探索 (DLI)”,单击“下一步”。
        图3 创建DLI数据源连接
      3. 配置目的端DLI数据源连接连接参数。具体参数配置可以参考在CDM上配置DLI连接
        图4 配置DLI数据源连接参数
      4. 配置完成后,单击“保存”完成DLI数据源配置。
  2. 创建CDM迁移作业。
    1. 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。
    2. 在“作业管理”界面,选择“表/文件迁移”,单击“新建作业”。
    3. 在新建作业界面,配置当前作业配置信息,具体参数参考如下:
      图5 新建CDM作业作业配置
      1. 作业名称:自定义数据迁移的作业名称。例如,当前定义为:css_to_dli。
      2. 源端作业配置,具体参考如下:
        表2 源端作业配置

        参数名

        参数值

        源连接名称

        选择1.a中已创建的数据源名称。

        索引

        选择CSS集群中创建的Elasticsearch索引名。当前示例为CSS集群上创建索引并导入数据中创建的索引“my_test”。

        索引名称只能全部小写,不能有大写。

        类型

        Elasticsearch的类型,类似关系数据库中的表名称。类型名称只能全部小写,不能有大写。当前示例为:“_doc”。

        更多其他参数说明可以参考:CDM配置CSS源端参数

      3. 目的端作业配置,具体参考如下:
        表3 目的端作业配置

        参数名

        参数值

        目的连接名称

        选择1.b已创建的DLI数据源连接。

        资源队列

        选择已创建的DLI SQL类型的队列。

        数据库名称

        选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名,即为“testdb”。

        表名

        选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名,即为“tablecss”。

        导入前清空数据

        选择导入前是否清空目的表的数据。当前示例选择为“否”。

        如果设置为是,任务启动前会清除目标表中数据。

        详细的参数配置可以参考:CDM配置DLI目的端参数

  3. 单击“下一步”,进入到字段映射界面,CDM会自动匹配源和目的字段。
    • 如果字段映射顺序不匹配,可通过拖拽字段调整。
    • 如果选择在目的端自动创建类型,这里还需要配置每个类型的字段类型、字段名称。
    • CDM支持迁移过程中转换字段内容,详细请参见字段转换
      图6 字段映射
  4. 单击“下一步”配置任务参数,一般情况下全部保持默认即可。

    该步骤用户可以配置如下可选功能:

    • 作业失败重试:如果作业执行失败,可选择是否自动重试,这里保持默认值“不重试”。
    • 作业分组:选择作业所属的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。
    • 是否定时执行:如果需要配置作业定时自动执行,请参见配置定时任务。这里保持默认值“否”。
    • 抽取并发数:设置同时执行的抽取任务数。这里保持默认值“1”。
    • 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。
  5. 单击“保存并运行”,回到作业管理界面,在作业管理界面可查看作业执行进度和结果。
    图7 迁移作业进度和结果查询
support.huaweicloud.com/usermanual-dli/dli_01_0655.html