PySpark实战:分布式机器学习

来自CloudWiki
跳转至: 导航搜索

人们迫切需要一种将大数据处理与分布式机器算法有机结合的技术

庆幸的是,Apache Spark正好满足一些要求

Apache Spark 不但能对分布式数据进行处理,同时还内置分布式机器学习算法为应用添加智能。

这里所谓的智能,可以理解为Spark MLlib库通过对历史数据的学习,可以对未来的数据进行预测。