PySpark实战:大数据下的分析工具
来自CloudWiki
目录
- 1 大数据的基石
- 2 大数据工具
- 2.1 Hadoop
- 2.2 Hive
- 2.3 HBase
- 2.4 Apache Phoenix
- 2.5 Apache Drill
- 2.6 Apache Hudi
- 2.7 Apache Kylin
- 2.8 Apache Presto
- 2.9 ClickHouse
- 2.10 Apache Spark
- 2.11 Apache Flink
- 2.12 Apache Storm
- 2.13 Apache Druid
- 2.14 Apache Kafka
- 2.15 TensorFlow
- 2.16 PyTorch
- 2.17 Apache Superset
- 2.18 ElasticSearch
- 2.19 Jupyter Notebook
- 2.20 Apache Zeppelin
大数据的基石
来源于谷歌公司的三篇论文,
这三篇论文主要阐述了谷歌公司对于大数据问题的解决方案。
- Google File System
- Google MapReduce
- Google BigTable
大数据工具
主要分类如下:
- 分布式存储:HDFS 和Kafka等
- 分布式计算:Hadoop,Spark,Flink等
- 分布式查询:Hive,Hbase,Kylin,Impala
- 分布式挖掘:Spark ML 和Alink等
Hadoop
Hadoop可以让用户在不了解分布式底层细节的时候,开发分布式程序
专为离线和大规模数据分析而设计,不适合在线事物处理模式
Hive
可看作是一个数据仓库分析系统。
提供了丰富的SQL查询方式 来查询存储在Hadoop中的数据
不适合联机事物处理,也不适合实时查询系统
最适合应用在基于大量不可变数据批处理作业。
HBase
Apache Phoenix
Apache Drill
Apache Hudi
Apache Kylin
Apache Presto
ClickHouse
流行的用于数据分析的数据库
Apache Spark
专为大规模数据处理而设计的快速通用的计算引擎。
Apache Flink
Apache Storm
Apache Druid
Apache Kafka
Apache kafka是一个开源流处理平台
TensorFlow
PyTorch
一个以Python优先的深度学习框架,从操作上,非常符合我们的使用习惯。
Apache Superset
是由Airbnb开源的数据可视化工具
ElasticSearch
ElasticSearch是一个开源的、分布式的,提供RestfulApI 的搜索和数据分析引擎。
Jupyter Notebook
Apache Zeppelin
与Jupyter Notebook类似,Apache Zeppelin是一个提供交互式数据分析且基于Web的笔记本。
借助Apache Zeppelin支持多种语言:Apache Spark, PySpark ,Spark SQL ...