“Spark全栈：飞行航班数据”的版本间的差异

来自CloudWiki

跳转至：导航，搜索

2022年7月11日 (一) 10:04的版本

航班准点记录并不是那么“大”的数据，不过每年增加的未压缩数据也有几个GB的量。我们马上就要面对这样一个“大”数据问题（实际上是一个“中”数据问题）——在自己的电脑上直接处理这些数据几乎行不通。

在本书中，我们所使用的工具都可以处理PB级的数据量，不过我们只需要用到单机的本地模式，完全可以在自己的电脑上运行。这些工具不仅让我们可以高效处理数据，还让我们只编译应用一次，应用就可以在各种规模的集群上运行。这简化了我们的各项工作，而简单恰恰是敏捷开发的核心。

90%～95%的出发地在美国的航班记录都可以在交通统计局（https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time）查到。你可以按月下载这些数据，而我们已经把2015年的数据下载好了，你可以在该压缩的CSV文件中找到。数据的字段很多：

取自“http://www.openbrains.net/mediawiki/index.php?title=Spark全栈：飞行航班数据&oldid=30967”