MAPREDUCE服务 MRS-入门实践
入门实践
当完成 MRS 集群部署后,可以根据自身的业务需求使用MRS提供的一系列常用实践。
实践 |
描述 |
|
---|---|---|
数据分析 |
本实践指导使用Spark实现车主驾驶行为分析。用于了解MRS的基本功能,利用MRS服务的Spark2x组件,对车主的驾驶行为进行分析统计,得到用户驾驶行为的分析结果,分析统计指定时间段内,车主急加速、急减速、空挡滑行、超速、疲劳驾驶等违法行为的次数。 |
|
本实践指导使用Hive对原始数据进行导入、分析等操作,展示了如何构建弹性、低成本的离线大数据分析。以某图书网站后台用户的点评数据为原始数据,导入Hive表后通过SQL命令筛选出最受欢迎的畅销图书。 |
||
本实践指导使用Hive对OBS中存储的原始数据进行导入、分析等操作,展示了如何构建弹性、低成本的存算分离大数据分析。以用户开发一个Hive数据分析应用为例,通过客户端连接Hive后,执行HQL语句访问OBS中的Hive数据。进行企业雇员信息的管理、查询。 |
||
本实践指导使用MRS集群内置的Flink WordCount作业程序,来分析OBS文件系统中保存的源数据,以统计源数据中的单词出现次数。 MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下,用户将数据存储在OBS服务中,使用MRS集群仅做数据计算处理的存算分离模式。 |
||
数据迁移 |
本实践适用于多种不同场景下的HDFS、HBase、Hive数据向MRS集群的迁移工作。 介绍数据迁移前的准备工作、元数据导出、数据拷贝、数据恢复等内容。 |
|
本实践使用华为云 CDM 服务将Hadoop集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。 |
||
本实践使用华为云CDM服务将HBase集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。HBase会把数据存储在HDFS上,主要包括HFile文件和WAL文件,由配置项“hbase.rootdir”指定在HDFS上的路径,华为云MRS的默认存储位置是“/hbase”文件夹下。 HBase自带的一些机制和工具命令也可以实现数据搬迁,例如:通过导出Snapshots快照、Export/Import、CopyTable方式等。 |
||
本实践使用华为云CDM服务将Hive集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。 Hive数据迁移分两部分内容:
|
||
本实践使用CDM云服务将MySQL数据导入到MRS集群内的Hive分区表中。 Hive提供类SQL查询语言,帮助用户对大规模的数据进行提取、转换和加载,即通常所称的ETL(Extraction,Transformation,and Loading)操作。对庞大的数据集查询需要耗费大量的时间去处理,在许多场景下,可以通过建立Hive分区方法减少每一次扫描的总数据量,这种做法可以显著地改善性能。 |
||
本实践以MRS HDFS数据迁移到OBS为例,介绍如何通过CDM将文件类数据迁移到文件中。 |
||
系统对接 |
本实践介绍如何使用DBeaver访问Phoenix。 本地安装的DBeaver可通过Phoenix Jar包对接MRS集群HBase组件。对接成功后,可在DBeaver中创建HBase表并插入数据。 |
|
本实践介绍如何使用DBeaver访问HetuEngine。 本地安装的DBeaver可通过JDBC Jar包对接MRS集群HetuEngine组件。对接成功后,可在DBeaver中查看HetuEngine已对接的数据源信息。 |
||
本实践介绍如何使用Hive对接开源MySQL和Postgres数据库。 在已有Hive数据的集群上外置元数据库后,之前的元数据表不会自动同步。因此在安装Hive之初就要确认好元数据是外置数据库还是内置到DBService,如果是外置自建数据库,则需在安装Hive时或者暂无Hive数据时将元数据外置,安装后不允许修改,否则将会造成原有元数据丢失。 |
||
本实践介绍如何使用Hive对接 CS S的Elasticsearch服务。 利用Elasticsearch-Hadoop插件,完成Hive和CSS服务的Elasticsearch直接的数据交互,通过Hive外部表的方式,可以快速将Elasticsearch索引数据映射到Hive表中。 |