MAPREDUCE服务 MRS-管理Loader作业:创建作业
创建作业
- 访问Loader页面,单击“新建作业”。
- 在“基本信息”填写参数。
- 在“名称”填写一个作业的名称。
- 在“源连接”和“目的连接”选择对应的连接。
选择某个类型的连接,表示从指定的源获取数据,并保存到目的位置。
如果没有需要的连接,可单击“添加新连接”。
- 在“自”填写源连接的作业配置。
具体请参见Loader作业源连接配置说明。
- 在“至”填写目的连接的作业配置。
具体请参见Loader作业目的连接配置说明。
- 在“目的连接”是否选择了数据库类型的连接。
数据库类型的连接包含以下几种:
- generic-jdbc-connector
- hbase-connector
- hive-connector
“目的连接”选择数据库类型的连接时,还需要配置业务数据与数据库表字段的对应关系:
- 在“字段映射”填写字段对应关系。然后执行7。
“字段映射”的对应关系,表示用户数据中每一列与数据库的表字段的匹配关系。
表1 “字段映射”属性 参数
说明
列号
表示业务数据的字段顺序。
样本
表示业务数据的第一行值样例。
列族
“目的连接”为hbase-connector类型时,支持定义保存数据的具体列族。
目的字段
配置保存数据的具体字段。
类型
显示用户选择字段的类型。
行键
“目的连接”为hbase-connector类型时,需要勾选作为行键的“目的字段”。
如果From是sftp/ftp/obs/hdfs等文件类型连接器,Field Mapping 样值取自文件第一行数据,需要保证第一行数据是完整的,Loader作业不会抽取没有Mapping上的列。
- 在“任务配置”填写作业的运行参数。
表2 Loader作业运行属性 参数
说明
抽取并发数
设置map任务的个数。
加载(写入)并发数
设置reduce任务的个数。
该参数只有在目的字段为Hbase和Hive时才会显示。
单个分片的最大错误记录数
设置一个错误阈值,如果单个map任务的错误记录超过设置阈值则任务自动结束,已经获取的数据不回退。
说明:“generic-jdbc-connector”的“MYSQL”和“MPPDB”默认批量读写数据,每一批次数据最多只记录一次错误记录。
脏数据目录
设置一个脏数据目录,在出现脏数据的场景中在该目录保存脏数据。如果不设置则不保存。
- 单击“保存”。
- ModelArts模型训练_创建训练作业_如何创建训练作业
- MapReduce服务_什么是Loader_如何使用Loader
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 大数据分析是什么_使用MapReduce_创建MRS服务
- 什么是Spark SQL作业_数据湖探索DLISpark SQL作业
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- 基因测序数据安全存储_低成本基因测序数据存储_基因数据存储
- PLM系统功能介绍_国内PLM_主流PLM软件
- MapReduce服务_什么是Yarn_如何使用Yarn
- MapReduce服务_什么是ZooKeeper_如何使用ZooKeeper