PySpark实战:Spark与Hadoop

Spark概述

2009年 Spark诞生于伯克利大学实验室

2014年 Spark成为Apache顶级项目

Spark 用 Spark RDD,Spark SQL,Spark Streaming,Spark MLlib 和Spark GraphX解决了大数据领域中离线批处理、交互式查询、实时流计算、机器学习与图计算等最常见的计算问题。

Spark : Scala

Hadoop: Java

Spark: 基于内存进行计算

MapReduce: 从HDFS中读取数据

Spark : 没有分布式文件系统，必须和其他系统集成才能运作;

Spark 是大数据处理的瑞士军刀，支持多种类型的数据文件，如HDFS,HBase和各种关系型数据库

Hadoop能进行分布式存储，进行离线数据批处理。

在Spark中，用户提交的任务称为Application ,一个Application对应一个SparkContext ,一个Application中存在多个Job

Spark中每一个Job可以包含多个RDD转换算子。

Hadoop 一个作业称为一个Job,Job里面分为Map Task 和Reduce Task