HDFS是什么?有哪些特点?

HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写。它是一个分布式、可扩展、容错性高的文件系统,用于存储结构化和非结构化的数据。

HDFS有以下主要特点:

  1. 分布式存储:HDFS将文件分成固定大小的块,并在集群的节点中进行复制和分布式存储。
  2. 高容错性:HDFS默认将每个文件块复制三份,存储在不同的节点上。它通过数据复制实现高容错性,即使某个节点失效,也可以从其他节点恢复数据。
  3. 可扩展性:HDFS采用水平可扩展的架构,可以很容易的增加新节点。文件块会重新分布,以维持数据的高容错性和负载均衡。
  4. 适合批处理:HDFS中的文件一旦写入就不可改变。它适合在大规模数据集上执行数据分析和批处理计算。
  5. 低成本:HDFS可以使用廉价的商用体系结构构建,这降低了存储大规模数据的成本。
  6. 松耦合:文件可以被任意改变而不影响已存在的数据。每个文件块是一个独立的、不可改变的物理文件。

HDFS的体系结构包含NameNode(名称节点)和DataNode(数据节点)。
NameNode负责管理文件系统的名称空间和客户端对数据文件的访问。它不直接存储数据文件块,而是维护文件块所在的数据节点的映射信息。

DataNode负责存储文件块,并在NameNode的调度下提供对文件块的读写服务。集群中有大量DataNode节点,它们以组的形式存储数据文件块。

HDFS提供了一种可靠、可扩展、分布式的存储方案,是Hadoop生态系统的基石。