Hadoop分布式文件系统(HDFS)设计为适合在商用硬件上运行的分布式文件系统。 它与现有的分布式文件系统有很多共同点。 但是与此同时,它与其他分布式文件系统之间的区别也非常明显。 HDFS是一个高度容错的系统,适合在廉价机器上部署。 HDFS可以提供高吞吐量的数据访问,非常适合大规模 数据集 上的应用程序。 HDFS放松了一些POSIX约束,以达到流传输文件系统数据的目的。 HDFS最初是作为Apache Nutch搜索引擎项目的基础结构开发的。 HDFS是Apache Hadoop Core项目的一部分。
Hadoop是一个分布式计算平台,使用户可以轻松地进行架构和使用用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
1.高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。
2.高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
3.高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
4.高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5.低成本:与一体机、商用 数据仓库 以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是 开源 的,项目的软件成本因此会大大降低