MapReduce服务 MRS-MRS作业类型介绍:MRS作业分类

时间：2025-02-12 15:02:38

MapReduce服务 MRS 提交MRS作业

MRS作业是MRS为用户提供的程序执行平台，用于处理和分析用户数据。用户可以在MRS管理控制台中在线创建作业任务，也可以通过集群客户端后台方式提交作业。

MRS作业处理的数据通常来源于OBS或HDFS，用户创建作业前需要将待分析数据上传至OBS系统，MRS使用OBS中的数据进行计算分析。

MRS也支持将OBS中的数据导入至HDFS中，使用HDFS中的数据进行计算分析。数据完成处理和分析后，您可以将数据存储在HDFS中，也可以将集群中的数据导出至OBS系统。HDFS和OBS也支持存储压缩格式的数据，目前支持存储bz2、gz压缩格式的数据。

目前MRS集群支持在线创建如下几种类型的作业：

MapReduce：提供快速并行处理大量数据的能力，是一种分布式数据处理模式和执行环境，MRS支持提交MapReduce Jar程序。
Spark：基于内存进行计算的分布式计算框架，MRS支持提交SparkSubmit、Spark Script和Spark SQL作业。
- SparkSubmit：提交Spark Jar和Spark Python程序，运行Spark Application计算和处理用户数据。
- SparkScript：提交SparkScript脚本，批量执行Spark SQL语句。
- Spark SQL：使用Spark提供的类似SQL的Spark SQL语句，实时查询和分析用户数据。
Hive：建立在Hadoop基础上的开源的数据仓库。MRS支持提交HiveScript脚本和直接执行Hive SQL语句。
Flink：提供一个分布式大数据处理引擎，可对有限数据流和无限数据流进行有状态计算。
HadoopStreaming：HadoopStreaming作业像普通Hadoop作业一样，除了可以指定输入和输出的HDFS路径的参数外，它还可以指定mapper和reducer的可执行程序。