多线程爬虫

来自CloudWiki

Cloud17（讨论 | 贡献）2018年7月17日 (二) 03:21的版本（创建页面，内容为“==多线程与网络爬虫== Python的多线程对于IO密集型代码比较友好，网络爬虫能够在获取网页的过程中使用多线程，从而加快速…”）

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

跳转至：导航，搜索

目录

1 多线程与网络爬虫
2 简单单线程爬虫
3 Python 3多线程
4 简单多线程爬虫
5 使用Queue的多线程爬虫

多线程与网络爬虫

Python的多线程对于IO密集型代码比较友好，网络爬虫能够在获取网页的过程中使用多线程，从而加快速度。

下面将以获取访问量最大的1000个中文网站的速度为例，通过和单线程的爬虫比较，证实多线程方法在网络爬虫速度上的提升。这1000个访问量最大的中文网站是在Alexca.cn上获取的，地址如下：https://github.com/Santostang/PythonScraping/blob/master/Cha%207%20-%E6%8F%90%E5%8D%87%E7%88%AC%E8%99%AB%E7%9A%84%E9%80%9F%E5%BA%A6/alexa.txt

简单单线程爬虫

Python 3多线程

简单多线程爬虫

使用Queue的多线程爬虫

取自“http://www.openbrains.net/mediawiki/index.php?title=多线程爬虫&oldid=8489”