云服务器内容精选

华为云首页用户手册

MapReduce统计样例程序

MAPREDUCE服务 MRS-MapReduce统计样例程序开发思路:场景说明

场景说明假定用户有某个周末网民网购停留时间的日志文本，基于某些业务要求，要求开发MapReduce应用程序实现如下功能：统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。周末两天的日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单位为分钟，分隔符为“,”。 log1.txt：周六网民停留日志 LiuYang,female,20 YuanJing,male,10 GuoYijun,male,5 CaiXuyu,female,50 Liyuan,male,20 FangBo,female,50 LiuYang,female,20 YuanJing,male,10 GuoYijun,male,50 CaiXuyu,female,50 FangBo,female,60 log2.txt：周日网民停留日志 LiuYang,female,20 YuanJing,male,10 CaiXuyu,female,50 FangBo,female,50 GuoYijun,male,5 CaiXuyu,female,50 Liyuan,male,20 CaiXuyu,female,50 FangBo,female,50 LiuYang,female,20 YuanJing,male,10 FangBo,female,50 GuoYijun,male,50 CaiXuyu,female,50 FangBo,female,60

MAPREDUCE服务 MRS MapReduce统计样例程序
MAPREDUCE服务 MRS-MapReduce统计样例程序开发思路:数据规划

数据规划首先需要把原日志文件放置在HDFS系统里。在Linux系统上新建两个文本文件，将log1.txt中的内容复制保存到input_data1.txt，将log2.txt中的内容复制保存到input_data2.txt。在HDFS上建立一个文件夹，“/tmp/input”，并上传input_data1.txt，input_data2.txt到此目录，命令如下：在Linux系统HDFS客户端使用命令hdfs dfs -mkdir /tmp/input 在Linux系统HDFS客户端使用命令hdfs dfs -put local_filepath /tmp/input

MAPREDUCE服务 MRS MapReduce统计样例程序
MAPREDUCE服务 MRS-MapReduce统计样例代码:功能介绍

功能介绍统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。主要分为三个部分：从原文件中筛选女性网民上网时间数据信息，通过类CollectionMapper继承Mapper抽象类实现。汇总每个女性上网时间，并输出时间大于两个小时的女性网民信息，通过类CollectionReducer继承Reducer抽象类实现。 main方法提供建立一个MapReduce job，并提交MapReduce作业到hadoop集群。

MAPREDUCE服务 MRS MapReduce统计样例程序
MAPREDUCE服务 MRS-MapReduce统计样例代码:功能介绍

功能介绍统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。主要分为三个部分：从原文件中筛选女性网民上网时间数据信息，通过类CollectionMapper继承Mapper抽象类实现。汇总每个女性上网时间，并输出时间大于两个小时的女性网民信息，通过类CollectionReducer继承Reducer抽象类实现。 main方法提供建立一个MapReduce job，并提交MapReduce作业到hadoop集群。

MAPREDUCE服务 MRS MapReduce统计样例程序