Spark全栈:工具集概览

来自CloudWiki
Cloud17讨论 | 贡献2022年7月10日 (日) 09:44的版本 (创建页面,内容为“==敏捷开发工具栈的要求== 对于数据科学技术栈来说,为了实现敏捷性,有那些必需的要求? 一个要求是栈的每一层都要水…”)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索

敏捷开发工具栈的要求

对于数据科学技术栈来说,为了实现敏捷性,有那些必需的要求?

一个要求是栈的每一层都要水平可伸缩。往集群中再加一台机器比升级昂贵的专有硬件要好得多。如果要重写预测模型的实现才能重新部署,这就不敏捷了。这就是为什么我们要使用Spark MLlib而不是那些专门为单机设计的工具。

另一个要求是在栈的各层之间上下传递数据必须要能一行代码解决。在今天的配置密集型环境中,这是一个比较高的要求,但是我们可以通过精心挑选工具来满足。