“大数据分析”的版本间的差异

来自CloudWiki
跳转至: 导航搜索
获取网页
 
(未显示2个用户的34个中间版本)
第1行: 第1行:
 
*[[Hadoop平台安装部署]]
 
*[[Hadoop平台安装部署]]
 +
==网址收藏==
 +
*[[大数据网站收藏]]
  
 
==网络爬虫入门==
 
==网络爬虫入门==
第7行: 第9行:
  
 
==获取网页==
 
==获取网页==
获取网页的基础技术:request、urllib和selenium(模拟浏览器)。获取网页的进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取。
+
 
 
*[[Python爬取静态网页]]
 
*[[Python爬取静态网页]]
 +
*[[Python 爬虫 1 - Requests 库入门与实战]]
 +
*[[Python 爬虫 2 - 信息提取(Beautiful Soup 库)]]
 +
 
*[[Python爬取动态网页]]
 
*[[Python爬取动态网页]]
  
 
==解析网页==
 
==解析网页==
解析网页的基础技术:re正则表达式、BeautifulSoup和lxml。
+
*[[Python解析网页]]
 
 
解析网页的进阶技术:解决中文乱码。
 
  
 
==存储数据==
 
==存储数据==
  
 
存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。
 
存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。
 +
 +
==提升爬虫速度==
 +
*[[并发和并行,同步和异步]]
 +
*[[多线程爬虫]]
 +
*[[多进程爬虫]]
 +
*[[多协程爬虫]]
  
 
==其他==
 
==其他==
 
*[[数据获取]]
 
*[[数据获取]]
 +
*[[通过API获取数据]]
 +
*[[搭建 PySpider 爬虫服务]]
 
*[[数据清洗和整理]]
 
*[[数据清洗和整理]]
 
*[[数据计算和表达]]
 
*[[数据计算和表达]]
 +
 +
参考文档:
 +
 +
[1] https://github.com/Santostang/PythonScraping

2018年8月27日 (一) 13:08的最新版本

网址收藏

网络爬虫入门

获取网页

解析网页

存储数据

存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。

提升爬虫速度

其他

参考文档:

[1] https://github.com/Santostang/PythonScraping