查看“Spark全栈：可伸缩性=易用性”的源代码

==技术栈==
事件 ->收集器(Kafka) -> 批量存储(Amazon S3 ,Hdfs) -> 批处理(Spark) -> 分布式处理(MongoDb) -> 应用服务器(Flask) -> 浏览器

本书只会用两章的篇幅来介绍基础架构——一章用来介绍我们的开发工具，另一章则介绍如何在云上使用这些工具，以满足数据规模方面的要求。

我们还是需要能专注于手头的任务：处理数据并为用户创造价值。当工具过于复杂，很多配置项没有足够好的默认值而需要人工调整时，我们就过于关注工具本身了。我们应该关注的是数据、用户，以及有用的新应用。为了实现这样的目的，我们要的是一套简单的软件栈。这样一个高效的软件栈可以让包括设计、应用开发、统计、机器学习在内的各团队轻松合作，而无须分布式系统的专家参与其中。