Spark全栈:攀登金字塔

来自CloudWiki
跳转至: 导航搜索

如果你面前的路每一步都一清二楚,你就知道这不是属于你自己的路。真正属于自己的路是自己一步一步开拓出来的。唯有这样的路才配称为自己的路。——约瑟夫•坎贝尔

数据价值金字塔(data-value pyramid)的结构。在我们接下来的课程中,我们会从简单的记录开始,最终得到交互式的预测模型,在不断迭代的过程中攀登数据。

构建敏捷数据科学的产品就是构建一个场景,在这个场景中可以导出可重现的推论,并且被不断巩固,最终根据这些推论发掘出数据的价值。其中最初级的内容就是记录的展示。而最终的内容则是要从数据中创造并获取价值。这一过程是一个充满发现的过程。

数据价值栈借鉴了马斯洛需求层次理论中,下层必须为上层的前置条件的概念。上层内容(比如预测模型)依赖于下层内容(比如数据报表),

Vue2022071204.png

数据价值栈的底层是数据记录的简单展示,这一环节的关键是为数据构建出一条流水线,将原始数据转为用户屏幕上呈现走通的流程。接下来就是图表部分,我们对数据进行处理,获取结构化的数据并对数据的一些维度进行聚合,熟悉数据的各项属性。下一步就是识别数据间的关联,通过交互式报表探索数据。这样我们就可以使用基于统计的推断来生成预测模型。最终,预测模型给出预测,用户因此做出相应的行为改变,这样整个过程就创造并取得了价值。

本章是我们敏捷开发周期的第一个冲刺(sprint),我们要攀登数据价值金字塔的第一层(见图4-1)。我们要把从原始数据一步一步转为最终用户能看的网络应用的过程走通。这样单个开发者也可以把原始数据发布到页面上了。通过这一步,我们就在真实数据上试用了整个软件栈,将我们的应用程序一头连上数据本质,一头连上用户。

Python2022071301.png

数据价值金字塔的第一层可以过得比较快,以便进一步探索金字塔上层的价值。需要注意的是,由于还需要收集更多的数据集来使我们的分析更加丰富,所以我们以后依然会不断涉及这一层的内容。随着不断深入,我们需要探索更多的数据集。在本书中,我们不断向金字塔上层前进,整个过程都需要数据的收集与展示。我们在分析与听取用户反馈的同时,需要不断用到数据价值金字塔的各个层次。在我们进一步探索数据科学金字塔时,复杂度与获得的价值都如滚雪球般不断增大,这样的配置以及实时可浏览的记录为这一切提供了基础。