MAPREDUCE服务 MRS-管理Loader作业:创建作业

时间:2024-07-24 15:45:55

创建作业

  1. 访问Loader页面,单击“新建作业”
  2. “基本信息”填写参数。

    1. “名称”填写一个作业的名称。
    2. “源连接”“目的连接”选择对应的连接。

      选择某个类型的连接,表示从指定的源获取数据,并保存到目的位置。

      如果没有需要的连接,可单击“添加新连接”

  3. “自”填写源连接的作业配置。

    具体请参见Loader作业源连接配置说明

  4. “至”填写目的连接的作业配置。

    具体请参见Loader作业目的连接配置说明

  5. “目的连接”是否选择了数据库类型的连接

    数据库类型的连接包含以下几种:

    • generic-jdbc-connector
    • hbase-connector
    • hive-connector

    “目的连接”选择数据库类型的连接时,还需要配置业务数据与数据库表字段的对应关系:

    • 是,请执行6
    • 否,请执行7

  6. “字段映射”填写字段对应关系。然后执行7

    “字段映射”的对应关系,表示用户数据中每一列与数据库的表字段的匹配关系。

    表1 “字段映射”属性

    参数

    说明

    列号

    表示业务数据的字段顺序。

    样本

    表示业务数据的第一行值样例。

    列族

    “目的连接”为hbase-connector类型时,支持定义保存数据的具体列族。

    目的字段

    配置保存数据的具体字段。

    类型

    显示用户选择字段的类型。

    行键

    “目的连接”为hbase-connector类型时,需要勾选作为行键的“目的字段”

    如果From是sftp/ftp/obs/hdfs等文件类型连接器,Field Mapping 样值取自文件第一行数据,需要保证第一行数据是完整的,Loader作业不会抽取没有Mapping上的列。

  7. “任务配置”填写作业的运行参数。

    表2 Loader作业运行属性

    参数

    说明

    抽取并发数

    设置map任务的个数。

    加载(写入)并发数

    设置reduce任务的个数。

    该参数只有在目的字段为Hbase和Hive时才会显示。

    单个分片的最大错误记录数

    设置一个错误阈值,如果单个map任务的错误记录超过设置阈值则任务自动结束,已经获取的数据不回退。

    说明:

    “generic-jdbc-connector”“MYSQL”“MPPDB”默认批量读写数据,每一批次数据最多只记录一次错误记录。

    脏数据目录

    设置一个脏数据目录,在出现脏数据的场景中在该目录保存脏数据。如果不设置则不保存。

  8. 单击“保存”
support.huaweicloud.com/cmpntguide-mrs/mrs_01_0406.html