“大数据分析”的版本间的差异

2018年8月27日 (一) 13:08的最新版本

存储数据的基础技术：存入txt文件和存入csv文件。存储数据的进阶技术：存入MySQL数据库和存入MongoDB数据库。

参考文档：

@@ 第1行： / 第1行： @@
 *[[Hadoop平台安装部署]]
+==网址收藏==
+*[[大数据网站收藏]]
 ==网络爬虫入门==
@@ 第7行： / 第9行： @@
 ==获取网页==
-获取网页的基础技术：request、urllib和selenium（模拟浏览器）。获取网页的进阶技术：多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取。
 *[[Python爬取静态网页]]
+*[[Python 爬虫 1 - Requests 库入门与实战]]
+*[[Python 爬虫 2 - 信息提取(Beautiful Soup 库)]]
 *[[Python爬取动态网页]]
 ==解析网页==
-解析网页的基础技术：re正则表达式、BeautifulSoup和lxml。
+*[[Python解析网页]]
-解析网页的进阶技术：解决中文乱码。
 ==存储数据==
 存储数据的基础技术：存入txt文件和存入csv文件。存储数据的进阶技术：存入MySQL数据库和存入MongoDB数据库。
+==提升爬虫速度==
+*[[并发和并行，同步和异步]]
+*[[多线程爬虫]]
+*[[多进程爬虫]]
+*[[多协程爬虫]]
 ==其他==
 *[[数据获取]]
+*[[通过API获取数据]]
+*[[搭建 PySpider 爬虫服务]]
 *[[数据清洗和整理]]
 *[[数据计算和表达]]
+参考文档：
+[1] https://github.com/Santostang/PythonScraping