“Hadoop、Spark大数据实践案例”的版本间的差异

2022年10月13日 (四) 03:35的最新版本

大数据的案例

大数据公司挖掘数据价值的49个典型案例

https://blog.csdn.net/zw0pi8g5c1x/article/details/81277567

大数据的应用

工业系统数据分析

通过分析真实的工业应用系统数据，为该系统的功能或性能优化提出可行的建议。

网页文本信息的获取与处理

网页文本信息的获取与处理：通过对真实网页数据的爬取与搜集，为政府、企业或个人提供有价值的信息，如：舆情信息、某一方面的流行趋势、热门话题等信息。

公共交通数据的分析与挖掘

通过分析真实的公共交通流量数据，如：道路交通数据、铁路客运信息、民航客票信息等，提出线路优化或个人出行建议。

大数据集群搭建

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序.

Hadoop伪分布式搭建

hadoop伪分布式搭建

Hadoop分布式搭建

Spark集群搭建

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

@@ 第13行： / 第13行： @@
 ==大数据集群搭建==
+Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序.
 ===Hadoop伪分布式搭建===
 *[https://docs.qq.com/doc/DUFpIbnNPZUtBVnFz hadoop伪分布式搭建]
@@ 第24行： / 第26行： @@
 ===Spark集群搭建===
+Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
 *[[Spark运行架构]]
 *[https://docs.qq.com/doc/DUE1Ld2NzckZWRERJ Spark的安装和使用]
@@ 第30行： / 第34行： @@
 *[https://docs.qq.com/doc/DUGJVYVhhblZKRVhJ Spark RDD编程]
 *[https://docs.qq.com/doc/DUEt3TFNmZW9RQ0VT Spark 键值对RDD编程]
-*[[Python爬虫案例：爬取二手房信息]]
 *[[Spark案例：词频统计]]
 *[[Spark案例：计算PM2.5]]
 ===Spark机器学习===
+*[[Python爬虫案例：爬取二手房信息]]
 *[[Spark 线性回归之二手房预测]]
 *[[Spark 决策树之银行贷款预测]]

“Hadoop、Spark大数据实践案例”的版本间的差异

2022年10月13日 (四) 03:35的最新版本

目录

大数据的案例

大数据的应用

工业系统数据分析

网页文本信息的获取与处理

公共交通数据的分析与挖掘

大数据集群搭建

Hadoop伪分布式搭建

Hadoop分布式搭建

Spark集群搭建

Spark大数据分析

Spark机器学习

HDFS操作

构建数据仓库

数据采集

数据分析

导航菜单

个人工具

命名空间

变种

视图

更多

搜索

导航

工具