MAPREDUCE服务 MRS-使用Hive加载OBS数据并分析企业雇员信息:场景描述

时间:2024-06-06 14:45:23

场景描述

Hive是建立在Hadoop上的 数据仓库 框架,提供大数据平台批处理计算能力,能够对结构化/半结构化数据进行批量分析汇总完成数据计算。提供类似SQL的Hive Query Language语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。

Hive主要特点如下:

  • 海量结构化数据分析汇总。
  • 将复杂的MapReduce编写任务简化为SQL语句。
  • 灵活的数据存储格式,支持JSON, CS V,TEXTFILE,RCFILE,SEQUENCEFILE,ORC(Optimized Row Columnar)这几种存储格式。

本实践以用户开发一个Hive数据分析应用为例,通过客户端连接Hive后,执行HQL语句访问OBS中的Hive数据。进行企业雇员信息的管理、查询。如果需要基于 MRS 服务提供的样例代码工程开发构建应用,您可以参考Hive应用开发简介

本实践中,雇员信息的原始数据包含以下两张表:

表1 表1 雇员信息数据

编号

姓名

支付薪水币种

薪水金额

纳税税种

工作地

入职时间

1

Wang

R

8000.01

personal income tax&0.05

China:Shenzhen

2014

3

Tom

D

12000.02

personal income tax&0.09

America:NewYork

2014

4

Jack

D

24000.03

personal income tax&0.09

America:Manhattan

2015

6

Linda

D

36000.04

personal income tax&0.09

America:NewYork

2014

8

Zhang

R

9000.05

personal income tax&0.05

China:Shanghai

2014

表2 雇员联络信息数据

编号

电话

邮箱

1

135 XXXX XXXX

xxxx@xx.com

3

159 XXXX XXXX

xxxxx@xx.com.cn

4

186 XXXX XXXX

xxxx@xx.org

6

189 XXXX XXXX

xxxx@xxx.cn

8

134 XXXX XXXX

xxxx@xxxx.cn

通过数据应用,进行以下分析:

  • 查看薪水支付币种为美元的雇员联系方式。
  • 查询入职时间为2014年的雇员编号、姓名等字段,并将查询结果加载到新表中。
  • 统计雇员信息共有多少条记录。
  • 查询使用以“cn”结尾的邮箱的员工信息。
support.huaweicloud.com/bestpractice-mrs/mrs_05_0022.html