查看“PySpark实战:Hadoop与生态系统”的源代码
←
PySpark实战:Hadoop与生态系统
跳转至:
导航
,
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
==Hadoop概述== 2011年,hadoop发布了1.0版本, 现在最新版本为3.2.1 hadoop可在数千个节点上稳定运行 ===Hadoop2.x=== *HDFS *YARN *MapReduce ==HDFS体系结构== HDFS采用主从架构, 一个NameNode节点 和多个DataNode节点组成。 *NameNode: 存储文件系统的元数据 *DataNode: 存储实际业务数据的从节点 备份数据的存放是HDFS可靠性和性能的关键,HDFS采用Rack-Aware的策略来决定备份数据的存放。 ==Hadoop生态系统== *Hadoop HDFS *Hadoop MapReduce *Flume *Sqoop *Pig *Mahout *Hive *Hbase *Zookeeper *Spark *Drill *Superset
返回至
PySpark实战:Hadoop与生态系统
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息