使用MapReduce-华为云

MAPREDUCE服务 MRS-配置使用分布式缓存执行MapReduce任务:配置场景

配置场景分布式缓存在两种情况下非常有用。滚动升级在升级过程中，应用程序必须保持文字内容（jar文件或配置文件）不变。而这些内容并非基于当前版本的YARN，而是要基于其提交时的版本。这是一个具有挑战性的问题。一般情况下，应用程序（例如MapReduce、Hive、Tez等）需要进行完整的本地安装，将库安装至所有的集群机器（客户端及服务器端机器）中。当集群内开始进行滚动升级或降级时，本地安装的库的版本必然会在应用运行过程时发生改变。在滚动升级过程中，首先只会对少数NodeManager进行升级，这些NodeManager会获得新版本的软件。这导致了行为的不一致，并可能发生运行时错误。同时存在多个YARN版本集群管理员可能会在一个集群内运行使用多个版本YARN及Hadoop jars的任务。这在当前很难实现，因为jars已被本地化且只有一个版本。 MapReduce应用框架可以通过分布式缓存进行部署，且无需依赖安装中复制的静态版本。因此，可以在HDFS中存放多版本的Hadoop，并通过配置“mapred-site.xml”文件指定任务默认使用的版本。只需设置适当的配置属性，用户就可以运行不同版本的MapReduce，而无需使用部署在集群中的版本。图1 具有多个版本NodeManagers及Applications的集群

MAPREDUCE服务 MRS 使用MapReduce

MAPREDUCE服务 MRS-配置MapReduce任务日志归档和清理机制:配置场景

配置场景执行一个MapReduce应用会产生两种类型日志文件：作业日志和任务日志。作业日志由MRApplicationMaster产生，详细记录了作业启动时间、运行时间，每个任务启动时间、运行时间、Counter值等信息。此日志内容被HistoryServer解析以后用于查看作业执行的详细信息。任务日志记录了每个运行在Container中的任务输出的日志信息。默认情况下，任务日志只会存放在各NodeManager的本地磁盘上。打开日志聚合功能后，NodeManager会在作业运行完成后将本地的任务日志进行合并，写入到HDFS中。由于MapReduce的作业日志和任务日志（聚合功能开启的情况下）都保存在HDFS上。对于计算任务量大的集群，如果不进行合理的配置对日志文件进行定期归档和删除，日志文件将占用HDFS大量内存空间，增加集群负载。日志归档是通过Hadoop Archives功能实现的，Hadoop Archives启动的并行归档任务数（Map数）与待归档的日志文件总大小有关。计算公式为：并行归档任务数=待归档的日志文件总大小/归档文件大小。

MAPREDUCE服务 MRS 使用MapReduce

MAPREDUCE服务 MRS-配置MapReduce集群管理员列表:配置描述

配置描述进入Mapreduce服务参数“全部配置”界面，在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。表1 参数描述参数描述默认值 mapreduce.cluster.acls.enabled 是否开启对Job History Server 权限控制的开关。 true mapreduce.cluster.administrators 用于指定MapReduce集群管理员列表，可以配置用户和用户组，用户或者用户组之间用逗号间隔，用户和用户组之间用空格间隔，举例：userA,userB groupA,groupB。当配置为*时表示所有用户或用户组。 mapred supergroup,System_administrator_186

MAPREDUCE服务 MRS 使用MapReduce

MAPREDUCE服务 MRS-通过Windows系统提交MapReduce任务:配置描述

配置描述在客户端的“mapred-site.xml”配置文件中进行如下配置。“mapred-site.xml”配置文件在客户端安装路径的config目录下，例如“/opt/client/Yarn/config”。表1 参数说明参数描述默认值 mapreduce.app-submission.cross-platform 支持在Windows上提交到Linux上运行MR任务的配置项。当该参数的值设为“true”时，表示支持。当该参数的值设为“false”时，表示不支持。 true

MAPREDUCE服务 MRS 使用MapReduce

MAPREDUCE服务 MRS-配置MapReduce任务日志归档和清理机制:配置场景

配置场景执行一个MapReduce应用会产生两种类型日志文件：作业日志和任务日志。作业日志由MRApplicationMaster产生，详细记录了作业启动时间、运行时间，每个任务启动时间、运行时间、Counter值等信息。此日志内容被HistoryServer解析以后用于查看作业执行的详细信息。任务日志记录了每个运行在Container中的任务输出的日志信息。默认情况下，任务日志只会存放在各NodeManager的本地磁盘上。打开日志聚合功能后，NodeManager会在作业运行完成后将本地的任务日志进行合并，写入到HDFS中。由于MapReduce的作业日志和任务日志（聚合功能开启的情况下）都保存在HDFS上。对于计算任务量大的集群，如果不进行合理的配置对日志文件进行定期归档和删除，日志文件将占用HDFS大量内存空间，增加集群负载。日志归档是通过Hadoop Archives功能实现的，Hadoop Archives启动的并行归档任务数（Map数）与待归档的日志文件总大小有关。计算公式为：并行归档任务数=待归档的日志文件总大小/归档文件大小。

MAPREDUCE服务 MRS 使用MapReduce

MAPREDUCE服务 MRS-配置MapReduce集群管理员列表:配置描述

配置描述进入Mapreduce服务参数“全部配置”界面，在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。表1 参数描述参数描述默认值 mapreduce.cluster.acls.enabled 是否开启对Job History Server 权限控制的开关。 true mapreduce.cluster.administrators 用于指定MapReduce集群管理员列表，可以配置用户和用户组，用户或者用户组之间用逗号间隔，用户和用户组之间用空格间隔，举例：userA,userB groupA,groupB。当配置为*时表示所有用户或用户组。 MRS 3.x之前版本：mapred MRS 3.x及之后版本： mapred supergroup,System_administrator_186

MAPREDUCE服务 MRS 使用MapReduce

MAPREDUCE服务 MRS-通过Windows系统提交MapReduce任务:配置描述

配置描述在客户端的“mapred-site.xml”配置文件中进行如下配置。“mapred-site.xml”配置文件在客户端安装路径的config目录下，例如“/opt/client/Yarn/config”。表1 参数说明参数描述默认值 mapreduce.app-submission.cross-platform 支持在Windows上提交到Linux上运行MR任务的配置项。当该参数的值设为“true”时，表示支持。当该参数的值设为“false”时，表示不支持。 true

MAPREDUCE服务 MRS 使用MapReduce

云服务器内容精选

使用MapReduce

7*24

备案

专业服务

退订

建议反馈

售前咨询热线