查看“Hadoop、Spark大数据实践案例”的源代码
←
Hadoop、Spark大数据实践案例
跳转至:
导航
,
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
==大数据的案例== 大数据公司挖掘数据价值的49个典型案例 https://blog.csdn.net/zw0pi8g5c1x/article/details/81277567 ==大数据的应用== ===工业系统数据分析=== 通过分析真实的工业应用系统数据,为该系统的功能或性能优化提出可行的建议。 ===网页文本信息的获取与处理=== 网页文本信息的获取与处理:通过对真实网页数据的爬取与搜集,为政府、企业或个人提供有价值的信息,如:舆情信息、某一方面的流行趋势、热门话题等信息。 ===公共交通数据的分析与挖掘=== 通过分析真实的公共交通流量数据,如:道路交通数据、铁路客运信息、民航客票信息等,提出线路优化或个人出行建议。 ==大数据集群搭建== Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序. ===Hadoop伪分布式搭建=== *[https://docs.qq.com/doc/DUFpIbnNPZUtBVnFz hadoop伪分布式搭建] ===Hadoop分布式搭建=== *[[配置linux网络]] *[[大数据基本环境配置]] *[[安装zookeeper]] *[[安装hadoop]] *[[hbase安装]] ===Spark集群搭建=== Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 *[[Spark运行架构]] *[https://docs.qq.com/doc/DUE1Ld2NzckZWRERJ Spark的安装和使用] ===Spark大数据分析=== *[https://docs.qq.com/doc/DUGJVYVhhblZKRVhJ Spark RDD编程] *[https://docs.qq.com/doc/DUEt3TFNmZW9RQ0VT Spark 键值对RDD编程] *[[Spark案例:词频统计]] *[[Spark案例:计算PM2.5]] ===Spark机器学习=== *[[Python爬虫案例:爬取二手房信息]] *[[Spark 线性回归之二手房预测]] *[[Spark 决策树之银行贷款预测]] ===HDFS操作=== *[[HDFS基本操作]] ==构建数据仓库== *[[slave2上安装mysql server]] *[[slave1上安装hive]] *[[Master作为客户端]] ==数据采集== *[[采集分析Discuz论坛上的数据]] *[[Python爬虫案例:爬取二手房信息]] ==数据分析== *[[采集分析购物平台数据]]
返回至
Hadoop、Spark大数据实践案例
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息