“大数据分析”的版本间的差异
来自CloudWiki
(→网络爬虫入门) |
(→获取网页) |
||
第8行: | 第8行: | ||
==获取网页== | ==获取网页== | ||
获取网页的基础技术:request、urllib和selenium(模拟浏览器)。获取网页的进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取。 | 获取网页的基础技术:request、urllib和selenium(模拟浏览器)。获取网页的进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取。 | ||
− | + | *[[Python爬取静态网页]] | |
− | |||
==解析网页== | ==解析网页== |
2018年6月29日 (五) 08:29的版本
网络爬虫入门
获取网页
获取网页的基础技术:request、urllib和selenium(模拟浏览器)。获取网页的进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取。
解析网页
解析网页的基础技术:re正则表达式、BeautifulSoup和lxml。
解析网页的进阶技术:解决中文乱码。
存储数据
存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。