PySpark实战:SQL in Spark
来自CloudWiki
介绍
Spark SQL 前身是Shark,即Hive on Spark ,本质上通过Hive的HQL 进行解析,
把HQL翻译成Spark上对应的RDD操作,
然后通过Hive的Metadata获取数据库里的表信息,
最后获取相关数据并放到Spark上进行运算。
特点
支持大量的不同的数据源,如Hive,JSON,Parquet,JDBC等,
允许开发人员直接用SQL处理数据。