PySpark实战:SQL in Spark

来自CloudWiki

跳转至：导航，搜索

介绍

Spark SQL 前身是Shark,即Hive on Spark ,本质上通过Hive的HQL 进行解析，

把HQL翻译成Spark上对应的RDD操作，

然后通过Hive的Metadata获取数据库里的表信息，

最后获取相关数据并放到Spark上进行运算。

特点

支持大量的不同的数据源，如Hive,JSON,Parquet,JDBC等，

允许开发人员直接用SQL处理数据。

取自“http://www.openbrains.net/mediawiki/index.php?title=PySpark实战:SQL_in_Spark&oldid=27086”