大数据生态组件搭建

来自CloudWiki
Heartmzh讨论 | 贡献2020年11月7日 (六) 10:47的版本
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索

理论知识: 1.HDFS分布式存储 是Hadoop项目的核心子项目,分布式计算中数据存储管理的基础,具有高容错,高可靠,高可扩展,高吞吐率等 为海量数据提供了不怕故障的存储

 比如一个文件是100G,有三台电脑,HDFS会将100G的文件进行切片默认128MB存储到不同的计算机上,多副本,提高容错率,哪怕一台电脑宕机也不会影响数据的完整性

2020-11-07 184425.jpg