PySpark实战:Spark与Hadoop
来自CloudWiki
Spark概述
2009年 Spark诞生于伯克利大学实验室
2014年 Spark成为Apache顶级项目
Spark 用 Spark RDD,Spark SQL,Spark Streaming,Spark MLlib 和Spark GraphX解决了大数据领域中离线批处理、交互式查询、实时流计算、机器学习与图计算等最常见的计算问题。
Spark和Hadoop比较
实现语言不同
Spark : Scala
Hadoop: Java
数据计算方式不同
Spark: 基于内存进行计算
MapReduce: 从HDFS中读取数据
使用场景
Spark : 没有分布式文件系统,必须和其他系统集成才能运作;
Spark 是大数据处理的瑞士军刀,支持多种类型的数据文件,如HDFS,HBase和各种关系型数据库
Hadoop能进行分布式存储,进行离线数据批处理。
实现原理不同
在Spark中,用户提交的任务称为Application ,一个Application对应一个SparkContext ,一个Application中存在多个Job
Spark中每一个Job可以包含多个RDD转换算子。
Hadoop 一个作业称为一个Job,Job里面分为Map Task 和Reduce Task