PySpark实战:大数据下的分析工具

大数据的基石

来源于谷歌公司的三篇论文，

这三篇论文主要阐述了谷歌公司对于大数据问题的解决方案。

Google File System
Google MapReduce
Google BigTable

大数据工具

主要分类如下：

分布式存储：HDFS 和Kafka等
分布式计算：Hadoop,Spark,Flink等
分布式查询：Hive,Hbase,Kylin,Impala
分布式挖掘：Spark ML 和Alink等

Hadoop

Hadoop可以让用户在不了解分布式底层细节的时候，开发分布式程序

专为离线和大规模数据分析而设计，不适合在线事物处理模式

Hive

可看作是一个数据仓库分析系统。

提供了丰富的SQL查询方式来查询存储在Hadoop中的数据

不适合联机事物处理，也不适合实时查询系统

最适合应用在基于大量不可变数据批处理作业。

HBase

Apache Phoenix

Apache Drill

Apache Hudi

Apache Kylin

Apache Presto

ClickHouse

流行的用于数据分析的数据库

Apache Spark

专为大规模数据处理而设计的快速通用的计算引擎。

Apache Flink

Apache Storm

Apache Druid

Apache Kafka

Apache kafka是一个开源流处理平台

TensorFlow

PyTorch

一个以Python优先的深度学习框架，从操作上，非常符合我们的使用习惯。

Apache Superset

是由Airbnb开源的数据可视化工具

ElasticSearch

ElasticSearch是一个开源的、分布式的，提供RestfulApI 的搜索和数据分析引擎。

Jupyter Notebook

Apache Zeppelin

与Jupyter Notebook类似，Apache Zeppelin是一个提供交互式数据分析且基于Web的笔记本。

借助Apache Zeppelin支持多种语言：Apache Spark, PySpark ,Spark SQL ...