开发MapReduce应用-华为云

MAPREDUCE服务 MRS-MapReduce统计样例程序开发思路:场景说明

场景说明假定用户有某个周末网民网购停留时间的日志文本，基于某些业务要求，要求开发MapReduce应用程序实现如下功能。统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。周末两天的日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单位为分钟，分隔符为“,”。 log1.txt：周六网民停留日志 LiuYang,female,20 YuanJing,male,10 GuoYijun,male,5 CaiXuyu,female,50 Liyuan,male,20 FangBo,female,50 LiuYang,female,20 YuanJing,male,10 GuoYijun,male,50 CaiXuyu,female,50 FangBo,female,60 log2.txt：周日网民停留日志 LiuYang,female,20 YuanJing,male,10 CaiXuyu,female,50 FangBo,female,50 GuoYijun,male,5 CaiXuyu,female,50 Liyuan,male,20 CaiXuyu,female,50 FangBo,female,50 LiuYang,female,20 YuanJing,male,10 FangBo,female,50 GuoYijun,male,50 CaiXuyu,female,50 FangBo,female,60

MAPREDUCE服务 MRS 开发MapReduce应用

MAPREDUCE服务 MRS-MapReduce统计样例程序开发思路:功能介绍

功能介绍统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。主要分为三个部分。从原文件中筛选女性网民上网时间数据信息，通过类CollectionMapper继承Mapper抽象类实现。汇总每个女性上网时间，并输出时间大于两个小时的女性网民信息，通过类CollectionReducer继承Reducer抽象类实现。 main方法提供建立一个MapReduce job，并提交MapReduce作业到hadoop集群。

MAPREDUCE服务 MRS 开发MapReduce应用

MAPREDUCE服务 MRS-MapReduce统计样例程序开发思路:数据规划

数据规划首先需要把原日志文件放置在HDFS系统里。本地新建两个文本文件，将log1.txt中的内容复制保存到input_data1.txt，将log2.txt中的内容复制保存到input_data2.txt。在HDFS上建立一个文件夹，“/tmp/input”，并上传input_data1.txt，input_data2.txt到此目录，命令如下。在Linux系统HDFS客户端使用命令hdfs dfs -mkdir /tmp/input 在Linux系统HDFS客户端使用命令hdfs dfs -put local_filepath /tmp/input

MAPREDUCE服务 MRS 开发MapReduce应用

MAPREDUCE服务 MRS-MapReduce访问多组件样例程序开发思路:功能介绍

功能介绍该样例主要分为三个部分。从HDFS原文件中抽取name信息，查询HBase、Hive相关数据，并进行数据拼接，通过类MultiComponentMapper继承Mapper抽象类实现。获取拼接后的数据取最后一条输出到HBase、HDFS，通过类MultiComponentReducer继承Reducer抽象类实现。 main方法提供建立一个MapReduce job，并提交MapReduce作业到Hadoop集群。

MAPREDUCE服务 MRS 开发MapReduce应用

MAPREDUCE服务 MRS-MapReduce访问多组件样例程序开发思路:数据规划

数据规划创建HDFS数据文件。在Linux系统上新建文本文件，将log1.txt中的内容复制保存到data.txt。在HDFS上创建一个文件夹，“/tmp/examples/multi-components/mapreduce/input/”，并上传data.txt到此目录，命令如下。在Linux系统HDFS客户端使用命令hdfs dfs -mkdir -p /tmp/examples/multi-components/mapreduce/input/ 在Linux系统HDFS客户端使用命令hdfs dfs -put data.txt /tmp/examples/multi-components/mapreduce/input/ 创建HBase表并插入数据。在Linux系统HBase客户端使用命令hbase shell。在HBase shell交互窗口创建数据表table1，该表有一个列族cf，使用命令create 'table1', 'cf'。插入一条rowkey为1、列名为cid、数据值为123的数据，使用命令put 'table1', '1', 'cf:cid', '123'。执行命令quit退出。创建Hive表并载入数据。在Linux系统Hive客户端使用命令beeline。在Hive beeline交互窗口创建数据表person，该表有3个字段：name/gender/stayTime，使用命令CREATE TABLE person(name STRING, gender STRING, stayTime INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfile;。在Hive beeline交互窗口加载数据文件，LOAD DATA INPATH '/tmp/examples/multi-components/mapreduce/input/' OVERWRITE INTO TABLE person;。执行命令!q退出。由于Hive加载数据将HDFS对应数据目录清空，所以需再次执行1。

MAPREDUCE服务 MRS 开发MapReduce应用

MAPREDUCE服务 MRS-MapReduce访问多组件样例程序开发思路:场景说明

场景说明该样例以MapReduce访问HDFS、HBase、Hive为例，介绍如何编写MapReduce作业访问多个服务组件。帮助用户理解认证、配置加载等关键使用方式。该样例逻辑过程如下。以HDFS文本文件为输入数据 log1.txt：数据输入文件 YuanJing,male,10 GuoYijun,male,5 Map阶段获取输入数据的一行并提取姓名信息。查询HBase一条数据。查询Hive一条数据。将HBase查询结果与Hive查询结果进行拼接作为Map输出。 Reduce阶段获取Map输出中的最后一条数据。将数据输出到HBase。将数据保存到HDFS。

MAPREDUCE服务 MRS 开发MapReduce应用

云服务器内容精选

开发MapReduce应用

7*24

备案

专业服务

退订

建议反馈

售前咨询热线