PySpark实战:Spark与Hadoop

来自CloudWiki
跳转至: 导航搜索

Spark概述

2009年 Spark诞生于伯克利大学实验室

2014年 Spark成为Apache顶级项目

Spark 用 Spark RDD,Spark SQL,Spark Streaming,Spark MLlib 和Spark GraphX解决了大数据领域中离线批处理、交互式查询、实时流计算、机器学习与图计算等最常见的计算问题。

Spark和Hadoop比较

实现语言不同

Spark : Scala

Hadoop: Java

数据计算方式不同

Spark: 基于内存进行计算

MapReduce: 从HDFS中读取数据

使用场景

Spark : 没有分布式文件系统,必须和其他系统集成才能运作;

Spark 是大数据处理的瑞士军刀,支持多种类型的数据文件,如HDFS,HBase和各种关系型数据库

Hadoop能进行分布式存储,进行离线数据批处理。

实现原理不同

在Spark中,用户提交的任务称为Application ,一个Application对应一个SparkContext ,一个Application中存在多个Job

Spark中每一个Job可以包含多个RDD转换算子。

Hadoop 一个作业称为一个Job,Job里面分为Map Task 和Reduce Task