Bootstrap

python并行编程 - 介绍篇

目录1

介绍篇
线程篇
进程篇
异步篇
GPU篇
分布式篇


设计并行编程

任务分解:将程序分解为任务,在不同处理器上执行以实现并行化。(可以使用以下两种方法)

  • 领域分解:将问题数据分解 (当处理的数据量很大时,分开处理)
  • 功能性分解:将问题分解为任务 (把大的任务分解为多个小任务处理)

任务分配:将任务分配到各个处理器上 (目的是负载均衡

聚集:将小任务与大任务合并到一起从而改进性能的过程
如果任务数量远远超过可用的处理器数量,由于线程切换等其它因素会导致效率降低
如果计算机有针对大量小任务而进行特别的设计,如采用GPU计算,那将能从大量小任务的运行中获益

映射:指定哪个任务将要执行 (目标是将总执行时间降到最低)(可以使用以下2中策略,这2个策略间由于是冲突的,需要做出权衡)

  • 通信频繁的任务放在同一个处理器中来增加局部性
  • 可以并发执行的任务放在不同的处理器中增加并发性

注意! 映射问题,即NP完备2。对于相同大小的任务,很容易直接映射
如果是每个任务的工作量千差万别,就需要采用负载均衡算法在运行期间确定聚集与映射的策略。
如果在程序执行期间通信量或任务量发生变化的情况,可以使用动态的负载均衡算法

(不同的问题存在多种负载均衡算法,有全局或局部的。全局算法需要全局的掌握,会增加大量成本。局部算法只依赖于特定任务本身的信息,不过难以找到最优)
(存在 管理者/执行者(管理者调度)、层次化的管理者/执行者(分组,每组都有个管理者调度)、去中心化的模型(每个处理器会维护自己的任务池))


进程与线程比较3

性能比较

多线程比多进程成本低,但性能更低

优缺点对比

多进程优点

  • 每个进程相互独立,子进程异常不影响父进程
  • 通过增加CPU,就可容易扩充性能
  • 没有锁的影响
  • 每个子进程都有独立的地址空间和资源

多进程缺点

  • 逻辑控制复杂,需要和主进程交互
  • 需要跨进程边界,如有大量数据需要传输不太好,适合少量数据传输、密集运算

多线程优点

  • 逻辑控制简单
  • 需跨进程边界
  • 可直接共享资源
  • 资源消耗比进程

多线程缺点

  • 其中的某个线程崩溃可能会影响整个程序
  • 线程之间的同步和的控制比较麻烦
  • 每个线程与主线程共用地址空间

注意! 无论进程,还是线程多了以后,他们的调度也会消耗较多的CPU资源


python并行编程的问题

一般来说,一个进程可以包含多个并行线程。不过,Python解释器并非完全是线程安全的。为了支持多线程的Python程序,会使用名为全局解释器锁GIL(Global Interpreter Lock)的全局锁。这意味着在同一时刻只有一个线程会执行Python代码。(如果多个线程尝试访问同一个对象数据,那么它可能处于不一致的状态)

故此,python中的并行编程想要发挥多核的优势推荐使用多进程代替多线程

为什么不去除GIL? 更多细节:Python 最难的问题


python中进程与线程的效率

由于python自身存在GIL的问题,同一时刻只能运行一个线程,在一些实验对比中,我们会发现python中进程与线程之间的差异,在这里直接给出结论
对比操作:CPU密集型IO密集型网络请求密集型

多线程

  • CPU密集型操作,性能更差
  • IO密集型操作,性能更差
  • 网络请求密集型操作,优势明显

多进程

  • CPU密集型操作,优势明显
  • IO密集型操作,优势明显
  • 网络请求密集型操作,与多线程相差无几,却更占用CPU等资源

故CPU密集型、IO密集型操作,首选多进程,网络请求密集型选择多线程

(附:如果追求效率,CPU密集型操作应首选C/C++语言
IO密集型操作,CPU消耗很少,换用C/C++也很难得到效率的提升,应采用开发效率高的语言,脚本语言是首选)

更多细节:Python中单线程、多线程和多进程的效率对比实验



  1. 参考书籍:《Python并行编程手册》 ↩︎

  2. NP完全问题是世界七大数学难题之一
    所有的完全多项式非确定性问题,都可以转换为一类叫做满足性问题的逻辑运算问题。既然这类问题的所有可能答案,都可以在多项式时间内计算,人们于是就猜想,是否这类问题存在一个确定性算法,可以在多项式时间内直接算出或是搜寻出正确的答案呢?这就是著名的NP=P?的猜想(百度百科)
    https://zh.wikipedia.org/wiki/NP完全(wiki百科) ↩︎

  3. 参考:追溯到最早的一篇2011年的页面已失效了 ↩︎

;