“大数据分析”的版本间的差异
来自CloudWiki
(→获取网页) |
|||
(未显示2个用户的34个中间版本) | |||
第1行: | 第1行: | ||
*[[Hadoop平台安装部署]] | *[[Hadoop平台安装部署]] | ||
+ | ==网址收藏== | ||
+ | *[[大数据网站收藏]] | ||
==网络爬虫入门== | ==网络爬虫入门== | ||
第7行: | 第9行: | ||
==获取网页== | ==获取网页== | ||
− | + | ||
*[[Python爬取静态网页]] | *[[Python爬取静态网页]] | ||
+ | *[[Python 爬虫 1 - Requests 库入门与实战]] | ||
+ | *[[Python 爬虫 2 - 信息提取(Beautiful Soup 库)]] | ||
+ | |||
*[[Python爬取动态网页]] | *[[Python爬取动态网页]] | ||
==解析网页== | ==解析网页== | ||
− | + | *[[Python解析网页]] | |
− | |||
− | |||
==存储数据== | ==存储数据== | ||
存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。 | 存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。 | ||
+ | |||
+ | ==提升爬虫速度== | ||
+ | *[[并发和并行,同步和异步]] | ||
+ | *[[多线程爬虫]] | ||
+ | *[[多进程爬虫]] | ||
+ | *[[多协程爬虫]] | ||
==其他== | ==其他== | ||
*[[数据获取]] | *[[数据获取]] | ||
+ | *[[通过API获取数据]] | ||
+ | *[[搭建 PySpider 爬虫服务]] | ||
*[[数据清洗和整理]] | *[[数据清洗和整理]] | ||
*[[数据计算和表达]] | *[[数据计算和表达]] | ||
+ | |||
+ | 参考文档: | ||
+ | |||
+ | [1] https://github.com/Santostang/PythonScraping |
2018年8月27日 (一) 13:08的最新版本
网址收藏
网络爬虫入门
获取网页
解析网页
存储数据
存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。
提升爬虫速度
其他
参考文档: