“大数据分析”的版本间的差异

来自CloudWiki
跳转至: 导航搜索
获取网页
获取网页
第9行: 第9行:
 
获取网页的基础技术:request、urllib和selenium(模拟浏览器)。获取网页的进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取。
 
获取网页的基础技术:request、urllib和selenium(模拟浏览器)。获取网页的进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取。
 
*[[Python爬取静态网页]]
 
*[[Python爬取静态网页]]
 +
*[[Python爬取动态网页]]
  
 
==解析网页==
 
==解析网页==

2018年6月30日 (六) 01:46的版本

网络爬虫入门

获取网页

获取网页的基础技术:request、urllib和selenium(模拟浏览器)。获取网页的进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取。

解析网页

解析网页的基础技术:re正则表达式、BeautifulSoup和lxml。

解析网页的进阶技术:解决中文乱码。

存储数据

存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。

其他