MAPREDUCE服务 MRS-使用BulkLoad工具向HBase中批量导入数据:方案架构
方案架构
Bulkload是HBase提供的一个数据导入工具,它可以将数据批量地导入到HBase表中,直接写入底层数据文件和WAL日志,从而显著提升了数据加载的速度和效率。
BulkLoad方式调用MapReduce的job直接将数据输出成HBase table内部的存储格式的文件HFile,然后将生成的StoreFiles加载到集群的相应节点。这种方式无需进行flush、compact、split等过程,不占用Region资源,不会产生巨量的写入I/O,所以需要较少的CPU和网络资源。
- 大量数据一次性加载到HBase。
- 对数据加载到HBase可靠性要求不高,不需要生成WAL文件。
- 使用put加载大量数据到HBase速度变慢,且查询速度变慢时。
- 加载到HBase新生成的单个HFile文件大小接近HDFS block大小。
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- MapReduce服务_什么是MapReduce服务_什么是HBase
- MapReduce服务_什么是Loader_如何使用Loader
- 大数据分析是什么_使用MapReduce_创建MRS服务
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- MapReduce服务_什么是HDFS_HDFS特性
- 数据治理中心_数据架构_数据架构使用示例-华为云
- MapReduce服务_什么是Hive_如何使用Hive
- MapReduce服务_什么是Flume_如何使用Flume
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离