查看“Spark全栈:飞行航班数据”的源代码
←
Spark全栈:飞行航班数据
跳转至:
导航
,
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
航班准点记录并不是那么“大”的数据,不过每年增加的未压缩数据也有几个GB的量。我们马上就要面对这样一个“大”数据问题(实际上是一个“中”数据问题)——在自己的电脑上直接处理这些数据几乎行不通。 在本书中,我们所使用的工具都可以处理PB级的数据量,不过我们只需要用到单机的本地模式,完全可以在自己的电脑上运行。这些工具不仅让我们可以高效处理数据,还让我们只编译应用一次,应用就可以在各种规模的集群上运行。这简化了我们的各项工作,而简单恰恰是敏捷开发的核心。 ==航班准点情况数据== 90%~95%的出发地在美国的航班记录都可以在交通统计局(https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time)查到。你可以按月下载这些数据,而我们已经把2015年的数据下载好了,你可以在该压缩的CSV文件中找到。 ==OpenFlights数据库== OpenFlights.org发布了一个关于机场、航空公司、航线相关信息的数据库(https://openflights.org/data.html)。我们要在分析中使用这个数据库评估机场的特点。
返回至
Spark全栈:飞行航班数据
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息