MAPREDUCE服务 MRS-使用Hive加载OBS数据并分析企业雇员信息:应用场景

时间:2024-12-06 11:03:57

应用场景

MRS Hadoop分析集群,提供Hive、Spark离线大规模分布式数据存储和计算,进行海量数据分析与查询。

本实践基于华为云 MapReduce服务 ,用于指导您创建MRS集群后,使用Hive对OBS中存储的原始数据进行导入、分析等操作,展示了如何构建弹性、低成本的存算分离大数据分析。

本实践中,雇员信息的原始数据包含以下两张表:

表1 表1 雇员信息数据

编号

姓名

支付薪水币种

薪水金额

纳税税种

工作地

入职时间

1

Wang

R

8000.01

personal income tax&0.05

China:Shenzhen

2014

3

Tom

D

12000.02

personal income tax&0.09

America:NewYork

2014

4

Jack

D

24000.03

personal income tax&0.09

America:Manhattan

2015

6

Linda

D

36000.04

personal income tax&0.09

America:NewYork

2014

8

Zhang

R

9000.05

personal income tax&0.05

China:Shanghai

2014

表2 雇员联络信息数据

编号

电话

邮箱

1

135 XXXX XXXX

xxxx@example.com

3

159 XXXX XXXX

xxxxx@example.com.cn

4

186 XXXX XXXX

xxxx@example.org

6

189 XXXX XXXX

xxxx@example.cn

8

134 XXXX XXXX

xxxx@example.cn

通过数据应用,进行以下分析:

  • 查看薪水支付币种为美元的雇员联系方式。
  • 查询入职时间为2014年的雇员编号、姓名等字段,并将查询结果加载到新表中。
  • 统计雇员信息共有多少条记录。
  • 查询使用以“cn”结尾的邮箱的员工信息。
support.huaweicloud.com/bestpractice-mrs/mrs_05_0022.html