PySpark实战:Hadoop与生态系统

来自CloudWiki
跳转至: 导航搜索

Hadoop概述

2011年,hadoop发布了1.0版本,

现在最新版本为3.2.1

hadoop可在数千个节点上稳定运行

Hadoop2.x

  • HDFS
  • YARN
  • MapReduce

HDFS体系结构

HDFS采用主从架构,

一个NameNode节点 和多个DataNode节点组成。

  • NameNode: 存储文件系统的元数据
  • DataNode: 存储实际业务数据的从节点

备份数据的存放是HDFS可靠性和性能的关键,HDFS采用Rack-Aware的策略来决定备份数据的存放。

Hadoop生态系统

  • Hadoop HDFS
  • Hadoop MapReduce
  • Flume
  • Sqoop
  • Pig
  • Mahout
  • Hive
  • Hbase
  • Zookeeper
  • Spark
  • Drill
  • Superset