大数据生态组件搭建

来自CloudWiki
跳转至: 导航搜索

理论知识: 1.HDFS分布式存储 是Hadoop项目的核心子项目,分布式计算中数据存储管理的基础,具有高容错,高可靠,高可扩展,高吞吐率等 为海量数据提供了不怕故障的存储

 比如一个文件是100G,有三台电脑,HDFS会将100G的文件进行切片默认128MB存储到不同的计算机上,多副本,提高容错率,哪怕一台电脑宕机也不会影响数据的完整性

2020-11-07 184425.jpg