“大数据分析”的版本间的差异
来自CloudWiki
(未显示2个用户的38个中间版本) | |||
第1行: | 第1行: | ||
*[[Hadoop平台安装部署]] | *[[Hadoop平台安装部署]] | ||
+ | ==网址收藏== | ||
+ | *[[大数据网站收藏]] | ||
+ | |||
+ | ==网络爬虫入门== | ||
*[[网络爬虫简介]] | *[[网络爬虫简介]] | ||
− | *[[ | + | *[[搭建Python平台]] |
+ | *[[第1个网络爬虫]] | ||
+ | |||
+ | ==获取网页== | ||
+ | |||
+ | *[[Python爬取静态网页]] | ||
+ | *[[Python 爬虫 1 - Requests 库入门与实战]] | ||
+ | *[[Python 爬虫 2 - 信息提取(Beautiful Soup 库)]] | ||
+ | |||
+ | *[[Python爬取动态网页]] | ||
+ | |||
+ | ==解析网页== | ||
+ | *[[Python解析网页]] | ||
+ | |||
+ | ==存储数据== | ||
+ | |||
+ | 存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。 | ||
+ | |||
+ | ==提升爬虫速度== | ||
+ | *[[并发和并行,同步和异步]] | ||
+ | *[[多线程爬虫]] | ||
+ | *[[多进程爬虫]] | ||
+ | *[[多协程爬虫]] | ||
+ | |||
+ | ==其他== | ||
+ | *[[数据获取]] | ||
+ | *[[通过API获取数据]] | ||
+ | *[[搭建 PySpider 爬虫服务]] | ||
*[[数据清洗和整理]] | *[[数据清洗和整理]] | ||
*[[数据计算和表达]] | *[[数据计算和表达]] | ||
+ | |||
+ | 参考文档: | ||
+ | |||
+ | [1] https://github.com/Santostang/PythonScraping |
2018年8月27日 (一) 13:08的最新版本
网址收藏
网络爬虫入门
获取网页
解析网页
存储数据
存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。
提升爬虫速度
其他
参考文档: