“Spark全栈:飞行航班数据”的版本间的差异

来自CloudWiki
跳转至: 导航搜索
(创建页面,内容为“ 航班准点记录并不是那么“大”的数据,不过每年增加的未压缩数据也有几个GB的量。我们马上就要面对这样一个“大”数…”)
 
第4行: 第4行:
  
 
在本书中,我们所使用的工具都可以处理PB级的数据量,不过我们只需要用到单机的本地模式,完全可以在自己的电脑上运行。这些工具不仅让我们可以高效处理数据,还让我们只编译应用一次,应用就可以在各种规模的集群上运行。这简化了我们的各项工作,而简单恰恰是敏捷开发的核心。
 
在本书中,我们所使用的工具都可以处理PB级的数据量,不过我们只需要用到单机的本地模式,完全可以在自己的电脑上运行。这些工具不仅让我们可以高效处理数据,还让我们只编译应用一次,应用就可以在各种规模的集群上运行。这简化了我们的各项工作,而简单恰恰是敏捷开发的核心。
 +
 +
90%~95%的出发地在美国的航班记录都可以在交通统计局(https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time)查到。你可以按月下载这些数据,而我们已经把2015年的数据下载好了,你可以在该压缩的CSV文件中找到。
 +
数据的字段很多:

2022年7月11日 (一) 10:04的版本


航班准点记录并不是那么“大”的数据,不过每年增加的未压缩数据也有几个GB的量。我们马上就要面对这样一个“大”数据问题(实际上是一个“中”数据问题)——在自己的电脑上直接处理这些数据几乎行不通。

在本书中,我们所使用的工具都可以处理PB级的数据量,不过我们只需要用到单机的本地模式,完全可以在自己的电脑上运行。这些工具不仅让我们可以高效处理数据,还让我们只编译应用一次,应用就可以在各种规模的集群上运行。这简化了我们的各项工作,而简单恰恰是敏捷开发的核心。

90%~95%的出发地在美国的航班记录都可以在交通统计局(https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time)查到。你可以按月下载这些数据,而我们已经把2015年的数据下载好了,你可以在该压缩的CSV文件中找到。 数据的字段很多: