PySpark实战:SQL in Spark

来自CloudWiki
跳转至: 导航搜索

介绍

Spark SQL 前身是Shark,即Hive on Spark ,本质上通过Hive的HQL 进行解析,

把HQL翻译成Spark上对应的RDD操作,

然后通过Hive的Metadata获取数据库里的表信息,

最后获取相关数据并放到Spark上进行运算。

特点

支持大量的不同的数据源,如Hive,JSON,Parquet,JDBC等,

允许开发人员直接用SQL处理数据。