Spark全栈:可伸缩性=易用性

来自CloudWiki
跳转至: 导航搜索

技术栈

事件 ->收集器(Kafka) -> 批量存储(Amazon S3 ,Hdfs) -> 批处理(Spark) -> 分布式处理(MongoDb) -> 应用服务器(Flask) -> 浏览器

本书只会用两章的篇幅来介绍基础架构——一章用来介绍我们的开发工具,另一章则介绍如何在云上使用这些工具,以满足数据规模方面的要求。

我们还是需要能专注于手头的任务:处理数据并为用户创造价值。当工具过于复杂,很多配置项没有足够好的默认值而需要人工调整时,我们就过于关注工具本身了。我们应该关注的是数据、用户,以及有用的新应用。为了实现这样的目的,我们要的是一套简单的软件栈。这样一个高效的软件栈可以让包括设计、应用开发、统计、机器学习在内的各团队轻松合作,而无须分布式系统的专家参与其中。