MapReduce架构图

MapReduce架构包括了基础设施和大数据处理流程各个阶段的能力。

1、基础设施

MapReduce基于华为云弹性云服务器ECS构建的大数据集群，充分利用了其虚拟化层的高可靠、高安全的能力。

虚拟私有云（VPC）为每个租户提供的虚拟内部网络，默认与其他网络隔离。

云硬盘（EVS）提供高可靠、高性能的存储。

弹性云服务器（ECS）提供的弹性可扩展虚拟机，结合VPC、安全组、EVS数据多副本等能力打造一个高效、可靠、安全的计算环境。

2、数据采集

数据采集层提供了数据接入到MRS集群的能力，包括Flume（数据采集）、Loader（关系型数据导入）、Kafka（高可靠消息队列），支持各种数据源导入数据到大数据集群中。使用云数据迁移云服务也可以将外部数据导入至MRS集群中。

3、数据存储

MapReduce支持结构化和非结构化数据在集群中的存储，并且支持多种高效的格式来满足不同计算引擎的要求。

HDFS是大数据上通用的分布式文件系统。

OBS是对象存储服务，具有高可用低成本的特点。

HBase支持带索引的数据存储，适合高性能基于索引查询的场景。

4、数据融合处理

MapReduce提供多种主流计算引擎：MapReduce（批处理）、Tez（DAG模型）、Spark（内存计算）、SparkStreaming（微批流计算）、Storm（流计算）、Flink（流计算），满足多种大数据应用场景，将数据进行结构和逻辑的转换，转化成满足业务目标的数据模型。

基于预设的数据模型，使用易用SQL的数据分析，用户可以选择Hive（数据仓库），SparkSQL以及Presto交互式查询引擎。

5、数据呈现调度

用于数据分析结果的呈现，并与数据治理中心DataArts Studio集成，提供一站式的大数据协同开发平台，帮助用户轻松完成数据建模、数据集成、脚本开发、作业调度、运维监控等多项任务，可以极大降低用户使用大数据的门槛，帮助用户快速构建大数据处理中心。

6、集群管理

以Hadoop为基础的大数据生态的各种组件均是以分布式的方式进行部署，其部署、管理和运维复杂度较高。

MapReduce集群管理提供了统一的运维管理平台，包括一键式部署集群能力，并提供多版本选择，支持运行过程中集群在无业务中断条件下，进行扩缩容、弹性伸缩。同时MRS集群管理还提供了作业管理、资源标签管理，以及对上述数据处理各层组件的运维，并提供监控、告警、配置、补丁升级等一站式运维能力。

MapReduce服务