“大数据分析”的版本间的差异

来自CloudWiki
跳转至: 导航搜索
大数据平台搭建
任务2.2 使用Apache Ambari管理Hadoop集群
第39行: 第39行:
 
===任务2.2 使用Apache Ambari管理Hadoop集群===
 
===任务2.2 使用Apache Ambari管理Hadoop集群===
 
*[[hadoop服务管理]]
 
*[[hadoop服务管理]]
 +
*[[hadoop主机管理]]
 
*[[HDFS的管理]]
 
*[[HDFS的管理]]
 
*[[MapReduce简介]]
 
*[[MapReduce简介]]

2018年7月24日 (二) 14:25的版本

网址收藏

网络爬虫入门

获取网页

解析网页

存储数据

存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。

提升爬虫速度

大数据平台搭建

任务2.1 搭建Ambari Hadoop系统

任务2.2 使用Apache Ambari管理Hadoop集群

其他

参考文档:

[1] https://github.com/Santostang/PythonScraping