“大数据分析”的版本间的差异
来自CloudWiki
(→获取网页) |
(→获取网页) |
||
第7行: | 第7行: | ||
==获取网页== | ==获取网页== | ||
− | + | ||
*[[Python爬取静态网页]] | *[[Python爬取静态网页]] | ||
*[[Python爬取动态网页]] | *[[Python爬取动态网页]] |
2018年7月11日 (三) 07:20的版本
网络爬虫入门
获取网页
解析网页
解析网页的基础技术:re正则表达式、BeautifulSoup和lxml。
解析网页的进阶技术:解决中文乱码。
存储数据
存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。