“大数据分析”的版本间的差异

2018年6月30日 (六) 01:46的版本

获取网页的基础技术：request、urllib和selenium（模拟浏览器）。获取网页的进阶技术：多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取。

解析网页的基础技术：re正则表达式、BeautifulSoup和lxml。

解析网页的进阶技术：解决中文乱码。

存储数据的基础技术：存入txt文件和存入csv文件。存储数据的进阶技术：存入MySQL数据库和存入MongoDB数据库。

@@ 第9行： / 第9行： @@
 获取网页的基础技术：request、urllib和selenium（模拟浏览器）。获取网页的进阶技术：多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取。
 *[[Python爬取静态网页]]
+*[[Python爬取动态网页]]
 ==解析网页==