|
|
第30行: |
第30行: |
| *[[HDFS的管理]] | | *[[HDFS的管理]] |
| *[[MapReduce简介]] | | *[[MapReduce简介]] |
| + | *[[聚类分析]] |
| | | |
| ==其他== | | ==其他== |
2018年7月24日 (二) 08:55的版本
网址收藏
网络爬虫入门
获取网页
解析网页
存储数据
存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。
提升爬虫速度
大数据平台搭建
其他
参考文档:
[1] https://github.com/Santostang/PythonScraping