MAPREDUCE服务 MRS-样例:通过Loader将数据从OBS导入HDFS:操作步骤
操作步骤
- 将业务数据上传到用户的OBS文件系统。
- 获取用户的AK/SK信息,然后创建一个OBS连接和一个HDFS连接。
具体可参见Loader连接配置说明。
- 访问Loader页面。
如果是启用了Kerberos认证的分析集群,可参见访问Hue WebUI界面。
- 单击“新建作业”。
- 在“基本信息”填写参数。
- 在“名称”填写一个作业的名称。例如“obs2hdfs”。
- 在“源连接”选择已创建的OBS连接。
- “目的连接”选择已创建的HDFS连接。
- 在“自”填写源连接参数。
- 在“桶名”填写业务数据所保存的OBS文件系统名称。
- 在“源目录或文件”填写业务数据在文件系统的具体位置。
如果是单个文件,需要填写包含文件名的完整路径。如果是目录,填写目录的完整路径
- “文件格式”填写业务数据文件的类型。
可参见obs-connector。
- 在“至”填写目的连接参数。
- 在“定入目录”填写业务数据在HDFS要保存的目录名称。
如果是启用Kerberos认证的集群,当前访问Loader的用户对保存数据的目录需要有写入权限。
- 在“文件格式”填写业务数据文件的类型。
需要与6.c的类型对应。
- 在“压缩格式”填写一种压缩的算法。例如选择不压缩“NONE”。
- 在“是否覆盖”选择已有文件的处理方式,选择“True”。
- 单击“显示高级属性”,在“换行符”填写业务数据保存时,系统填充的换行字符。
- 在“字段分割符”填写业务数据保存时,系统填充的分割字符。
可参见hdfs-connector。
- 在“定入目录”填写业务数据在HDFS要保存的目录名称。
- 在“任务配置”填写作业的运行参数。
- 在“抽取并发数”填写map任务的个数。
- 在“加载(写入)并发数”填写reduce任务的个数。
目的连接为HDFS连接时,不显示“加载(写入)并发数”参数。
- “单个分片的最大错误记录数”填写错误记录阈值。
- 在“脏数据目录”填写一个脏数据的保存位置,例如“/user/sqoop/obs2hdfs-dd”。
- 单击“保存并运行”。
在“管理作业界面”,查看作业运行结果。可以单击“刷新列表”获取作业的最新状态。
- MapReduce服务_什么是Loader_如何使用Loader
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 大数据分析是什么_使用MapReduce_创建MRS服务
- MapReduce服务_什么是HDFS_HDFS特性
- MapReduce服务_什么是ZooKeeper_如何使用ZooKeeper
- Hudi服务_什么是Hudi_如何使用Hudi
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离
- MapReduce服务_什么是Flume_如何使用Flume
- MRS备份恢复_MapReduce备份_数据备份