MRS可以做什么

2020-09-24 09:48:11

基于 开源 软件Hadoop进行功能增强、Spark内存计算引擎、HBase分布式存储 数据库 以及Hive 数据仓库 框架,提供企业级 大数据 存储、查询和分析的统一平台,帮助企业快速构建海量数据信息处理系统

ZooKeeper是什么

2020-09-24 09:45:48

ZooKeeper是一个分布式、高可用性的协调服务。在大数据产品中主要提供两个功能

YARN是什么

2020-09-24 09:43:16

YARN是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。

什么是Tez

2020-09-23 19:17:34

Tez是Apache最新的支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。如果 Hive和Pig这样的项目使用Tez而不是MapReduce作为其数据处理的骨干,那么将会显著提升它们的响应时间,Tez构建在YARN之上,能够不需要做任何改动地运行MR任务。

Storm是什么

2020-09-23 19:16:16

Apache Storm是一个分布式、可靠、容错的实时流式数据处理的系统。在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。

Ranger是什么

2020-09-23 19:04:29

Apache Ranger提供一个集中式安全管理框架,并解决授权和审计。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行细粒度的数据访问控制。用户可以利用Ranger提供的前端WebUI控制台通过配置相关策略来控制用户对这些组件的访问权限 。

什么是Presto

2020-09-23 19:03:03

Presto是一个开源的用户交互式分析查询的SQL查询引擎,用于针对各种大小的数据源进行交互式分析查询。其主要应用于海量结构化数据/半结构化数据分析、海量多维数据聚合/报表、ETL、Ad-Hoc查询等场景。

MapReduce

2020-09-23 16:42:15

MapReduce是Hadoop的核心,是Google提出的一个软件架构,用于大规模 数据集 (大于1TB)的并行运算。概念“Map(映射)”和“Reduce(化简)”,及他们的主要思想,都是从函数式编程语言借来的,还有从矢量编程语言借来的特性。

Loader是什么

2020-09-23 16:39:53

Loader是在开源Sqoop组件的基础上进行了一些扩展,实现MRS与关系型数据库、文件系统之间交换“数据”、“文件”,同时也可以将数据从关系型数据库或者文件服务器导入到MRS的HDFS/HBase中,或者反过来从HDFS/HBase导出到关系型数据库或者文件服务器中。

Kudu是什么

2020-09-23 16:22:26

Kudu是专为Apache Hadoop平台开发的列式存储管理器,具有Hadoop生态系统应用程序的共同技术特性:在通用的商用硬件上运行,可水平扩展,提供高可用性。

KafkaManager是什么

2020-09-23 16:21:10

KafkaManager是Apache Kafka的管理工具,提供Kafka集群界面化的Metric监控和集群管理。

Impala是什么

2020-09-23 16:00:53

Impala直接对存储在HDFS,HBase 或 对象存储服务 (OBS)中的Hadoop数据提供快速,交互式SQL查询。

什么是Hue

2020-09-23 15:59:02

Hue是一组WEB应用,用于和MRS大数据组件进行交互,能够帮助用户浏览HDFS,进行Hive查询,启动MapReduce任务等,它承载了与所有MRS大数据组件交互的应用。

Hive基本原理

2020-09-23 15:57:46

Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

HBase介绍

2020-09-23 15:54:43

HBase是一个开源的、面向列(Column-Oriented)、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。

共7780条