Spark全栈:飞行航班数据

来自CloudWiki
跳转至: 导航搜索


航班准点记录并不是那么“大”的数据,不过每年增加的未压缩数据也有几个GB的量。我们马上就要面对这样一个“大”数据问题(实际上是一个“中”数据问题)——在自己的电脑上直接处理这些数据几乎行不通。

在本书中,我们所使用的工具都可以处理PB级的数据量,不过我们只需要用到单机的本地模式,完全可以在自己的电脑上运行。这些工具不仅让我们可以高效处理数据,还让我们只编译应用一次,应用就可以在各种规模的集群上运行。这简化了我们的各项工作,而简单恰恰是敏捷开发的核心。

航班准点情况数据

90%~95%的出发地在美国的航班记录都可以在交通统计局(https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time)查到。你可以按月下载这些数据,而我们已经把2015年的数据下载好了,你可以在该压缩的CSV文件中找到。

OpenFlights数据库

OpenFlights.org发布了一个关于机场、航空公司、航线相关信息的数据库(https://openflights.org/data.html)。我们要在分析中使用这个数据库评估机场的特点。