“Spark全栈:可伸缩性=易用性”的版本间的差异

来自CloudWiki
跳转至: 导航搜索
(创建页面,内容为“==技术栈== 事件 ->收集器(Kafka) -> 批量存储(Amazon S3 ,Hdfs) -> 批处理(Spark) -> 分布式处理(MongoDb) -> 应用服务器(Flask) -> 浏览器”)
 
 
第1行: 第1行:
 
==技术栈==
 
==技术栈==
 
事件 ->收集器(Kafka) -> 批量存储(Amazon S3 ,Hdfs) -> 批处理(Spark) -> 分布式处理(MongoDb) -> 应用服务器(Flask) -> 浏览器
 
事件 ->收集器(Kafka) -> 批量存储(Amazon S3 ,Hdfs) -> 批处理(Spark) -> 分布式处理(MongoDb) -> 应用服务器(Flask) -> 浏览器
 +
 +
本书只会用两章的篇幅来介绍基础架构——一章用来介绍我们的开发工具,另一章则介绍如何在云上使用这些工具,以满足数据规模方面的要求。
 +
 +
我们还是需要能专注于手头的任务:处理数据并为用户创造价值。当工具过于复杂,很多配置项没有足够好的默认值而需要人工调整时,我们就过于关注工具本身了。我们应该关注的是数据、用户,以及有用的新应用。为了实现这样的目的,我们要的是一套简单的软件栈。这样一个高效的软件栈可以让包括设计、应用开发、统计、机器学习在内的各团队轻松合作,而无须分布式系统的专家参与其中。

2022年7月10日 (日) 08:45的最新版本

技术栈

事件 ->收集器(Kafka) -> 批量存储(Amazon S3 ,Hdfs) -> 批处理(Spark) -> 分布式处理(MongoDb) -> 应用服务器(Flask) -> 浏览器

本书只会用两章的篇幅来介绍基础架构——一章用来介绍我们的开发工具,另一章则介绍如何在云上使用这些工具,以满足数据规模方面的要求。

我们还是需要能专注于手头的任务:处理数据并为用户创造价值。当工具过于复杂,很多配置项没有足够好的默认值而需要人工调整时,我们就过于关注工具本身了。我们应该关注的是数据、用户,以及有用的新应用。为了实现这样的目的,我们要的是一套简单的软件栈。这样一个高效的软件栈可以让包括设计、应用开发、统计、机器学习在内的各团队轻松合作,而无须分布式系统的专家参与其中。