PySpark实战:Hadoop与生态系统
来自CloudWiki
Hadoop概述
2011年,hadoop发布了1.0版本,
现在最新版本为3.2.1
hadoop可在数千个节点上稳定运行
Hadoop2.x
- HDFS
- YARN
- MapReduce
HDFS体系结构
HDFS采用主从架构,
一个NameNode节点 和多个DataNode节点组成。
- NameNode: 存储文件系统的元数据
- DataNode: 存储实际业务数据的从节点
备份数据的存放是HDFS可靠性和性能的关键,HDFS采用Rack-Aware的策略来决定备份数据的存放。
Hadoop生态系统
- Hadoop HDFS
- Hadoop MapReduce
- Flume
- Sqoop
- Pig
- Mahout
- Hive
- Hbase
- Zookeeper
- Spark
- Drill
- Superset