Bootstrap

python多线程爬虫

python多线程爬虫

python单线程爬虫对于应付小规模数据是可以的,但是面对大量数据,我们就要用到多线程爬虫技术。使用多线程,一方面可能会加快效率,另一方面可以施加一些小技巧,如不同的线程使用不同的代理ip从而避免出发反爬机制。

python 多线程

python的多线程可以用thread类来实现,具体实现的代码很简单,直接贴上就行了。
python线程还有一些标准库函数,如 threading.current_thread() 返回当前线程信息,具体使用时候可以查文档。

def thread_job():
    #线程要做的事情

# 开启10个线程
for i in range(10):
    # thread_job是线程要调用的函数,后面也可以带参数
    t = threading.Thread(target=thread_job)
    t.start()
python多线程是不是一定更有效率

python多线程只是有可能更有效率。
python中有GIL(Global Interpreter Lock),这个是全局锁,历史遗留问题。这个东西保证了同一时刻只有一个线程在一个CPU上执行字节码,无法将多个线程映射到多个CPU上,也就是说python的多线程是伪多线程。并且线程之间的切换是有损耗的。
那么python为什么又要引入多线程呢?虽然同一时间内只能有一个线程在一个cpu上执行字节码,但是可以有多个线程去做I/O操作。在单线程中处理I/O操作是比较费时的,所以在I/O操作比较多的时候,选用多线程爬虫是有可能进效率的;而需要

;