|
|
第27行: |
第27行: |
| | | |
| ==大数据平台搭建== | | ==大数据平台搭建== |
| + | *[[大数据背景知识]] |
| *[[搭建ambari管理平台]] | | *[[搭建ambari管理平台]] |
| *[[HDFS的管理]] | | *[[HDFS的管理]] |
2018年7月24日 (二) 14:00的版本
网址收藏
网络爬虫入门
获取网页
解析网页
存储数据
存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。
提升爬虫速度
大数据平台搭建
其他
参考文档:
[1] https://github.com/Santostang/PythonScraping