敏捷数据开发

来自CloudWiki
Cloud17讨论 | 贡献2021年7月29日 (四) 02:02的版本 (创建页面,内容为“敏捷数据科学有两大目标: 一是为了使用Python和Spark搭建出任意规模的数据分析应用, 二是帮助产品团队学会使用敏捷的方…”)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索

敏捷数据科学有两大目标:

一是为了使用Python和Spark搭建出任意规模的数据分析应用,

二是帮助产品团队学会使用敏捷的方式协作开发分析应用来保障工作成效。

我为本书维护了一个网页(http://datasyndrome.com/book),里面有最新的更新,以及为读者准备的相关资料。

Data Syndrome提供视频课程《使用Kafka、PySpark、Spark MLlib和Spark Streaming进行实时预测分析》(Realtime Predictive Analytics with Kafka,PySpark, Spark MLlib and Spark Streaming. http://datasyndrome.com/video),使用了第7章和第8章的材料,教观看者如何用Kafka、Spark Streaming及网络应用的前端页面构建出整套的实时预测系统(见图P-2)。如果想进一步了解,请访问http://datasyndrome.com/video 或联系rjurney@datasyndrome. com。

本书主要结构

本书分为两个部分。第Ⅰ部分介绍的是我们在第Ⅱ部分中需要用到的数据集和工具集。第Ⅰ部分故意写得简明扼要,只是为了尽可能快地介绍这些工具。第Ⅱ部分会更深入地探讨这些工具的使用,所以如果在读第Ⅰ部分时感觉有些不知所措也不用担心。第Ⅰ部分的章节如下。

第1章 理论

介绍敏捷数据科学的方法论。

第2章 敏捷工具

介绍要用的工具集,并且讲解工具如何上手与安装。

第3章 数据

描述本书中使用的数据集。

第Ⅱ部分是我们使用敏捷数据科学来构建一个分析应用的教程。这是一份笔记本式的分析应用构建指南。我们逐层攀登数据价值金字塔,始终应用敏捷的原则。这一部分会展示在敏捷迭代进程中一步一步发掘数据价值的方法。第Ⅱ部分由以下所列章节组成。

第4章 记录收集与展示

帮你下载航班数据,并且通过网络应用展示航班记录。

第5章 使用图表进行数据可视化

一步步引导你如何在网络应用中加入一些简单的图表来展示数据。

第6章 通过报表探索数据

教你如何从数据中提取出实体关系,将其参数化并相互关联以创建交互式的报表。

第7章 进行预测

在先前所做的基础上对某一航班准点与否进行预测。

第8章 部署预测系统

展示如何部署预测系统来确保真正发挥作用。

第9章 改进预测结果

不断迭代提高我们的准点航班预测应用的表现。

补充材料(代码示例、练习等)可以在https://github.com/rjurney/Agile_Data_Code_2中下载到。

国内:www.broadview.com.cn