查看“PySpark实战:Hadoop与生态系统”的源代码

==Hadoop概述==
2011年，hadoop发布了1.0版本，

现在最新版本为3.2.1

hadoop可在数千个节点上稳定运行

===Hadoop2.x===
*HDFS
*YARN
*MapReduce

==HDFS体系结构==
HDFS采用主从架构，

一个NameNode节点 和多个DataNode节点组成。

*NameNode: 存储文件系统的元数据
*DataNode： 存储实际业务数据的从节点

备份数据的存放是HDFS可靠性和性能的关键，HDFS采用Rack-Aware的策略来决定备份数据的存放。

==Hadoop生态系统==
*Hadoop HDFS
*Hadoop MapReduce
*Flume
*Sqoop
*Pig
*Mahout
*Hive
*Hbase
*Zookeeper
*Spark
*Drill
*Superset