python中的多进程与多线程(二)

时间:2021-07-25 17:40:15
  1、使用多线程可以有效利用CPU资源,线程享有相同的地址空间和内存,这些线程如果同时读写变量,导致互相干扰,就会产生并发问题,为了避免并发问题,绝不能让多个线程读取或写入相同的变量,因此python中使用了全局锁(GIL),此锁只有一个,当某线程执行某个函数时,其他线程不能同时执行,直到锁被释放(同时也要小心死锁的情况),因此无论有多少个线程,同一时刻只有一个线程持有该锁,也就是只能以单线程模式执行,因此代码并不能在同时在多核上并发,多线程在python中只能交替执行,即使100个线程跑在100核CPU上,也只能用到一核。
  2、GIL是Python解释器设计的历史遗留问题,通常我们用的解释器是官方实现的CPython,要真正利用多核,除非重写一个不带GIL的解释器。所以,在Python中,可以使用多线程,但不要指望能有效利用多核。如果一定要通过多线程利用多核,那只能通过C扩展来实现,不过这样就失去了Python简单易用的特点。
  3、不过,Python虽然不能利用多线程实现多核任务,但可以通过多进程实现多核任务,并实现真正意义上的并发。多个Python进程有各自独立的GIL锁,互不影响。但是,进程的开销比线程大,如果有较多并发进程的话,不建议。
  4、由于线程享有相同的地址空间和内存,所以线程间通信非常容易,进程间通信复杂,常见进程间通信有:管道(Pipes)、消息队列(Queue)、socket接口(TCP/IP)(麻烦)等,python的mutilprocess模块提供了封装好的管道和队列,可以方便的在进程间通信,python进程间的同步使用锁,这点和线程一样。
  5、计算密集型:不适合用多线程,因为要进行大量的计算,消耗CPU资源,虽然可以用多任务,但任务越多,花在任务切换的时间越多,CPU执行任务的效率越低,因此,代码运行效率至关重要。Python这样的脚本语言运行效率很低,完全不适合计算密集型任务。对于计算密集型任务,最好用C语言编写;
IO密集型:CPU消耗很少,大部分时间都在等待IO操作完成,执行任务期间,99%花在IO上,因此,对于IO密集型任务,最合适的语言就是开发效率最高(代码量最少)的语言,脚本语言是首选,C语言最差,可以使用多线程,或者伪线程。
  异步IO:考虑到CPU和IO之间巨大的速度差异,一个任务在执行的过程中大部分时间都在等待IO操作,单进程单线程模型会导致别的任务无法并行执行,因此,我们才需要多进程模型或者多线程模型来支持多任务并发执行。
  现代操作系统对IO操作已经做了巨大的改进,最大的特点就是支持异步IO。如果充分利用操作系统提供的异步IO支持,就可以用单进程单线程模型来执行多任务,这种全新的模型称为事件驱动模型,Nginx就是支持异步IO的Web服务器,它在单核CPU上采用单进程模型就可以高效地支持多任务。在多核CPU上,可以运行多个进程(数量与CPU核心数相同),充分利用多核CPU。由于系统总的进程数量十分有限,因此操作系统调度非常高效。用异步IO编程模型来实现多任务是一个主要的趋势。
  对应到Python语言,单线程的异步编程模型称为协程,有了协程的支持,就可以基于事件驱动编写高效的多任务程序。
  6、进程由若干线程组成,一个进程至少有一个线程。
  7、python标准库提供了两个模块:thread和threading。thread是低级模块,以Function作为线程的运行体;threading是高级模块,基于对象,可以继承Thread对象来实现线程,通常只需使用threading这个高级模块。
  8、进程 vs. 线程
    多进程模式最大的优点就是稳定性高,因为一个子进程崩溃了,不会影响主进程和其他子进程。(当然主进程挂了所有进程就全挂了,但是Master进程只负责分配任务,挂掉的概率低)著名的Apache最早就是采用多进程模式。
    多进程模式的缺点是创建进程的代价大,在Unix/Linux系统下,用fork调用还行,在Windows下创建进程开销巨大。另外,操作系统能同时运行的进程数也是有限的,在内存和CPU的限制下,如果有几千个进程同时运行,操作系统连调度都会成问题。
    多线程模式通常比多进程快一点,但是也快不到哪去,而且,多线程模式致命的缺点就是任何一个线程挂掉都可能直接造成整个进程崩溃,因为所有线程共享进程的内存。在Windows上,如果一个线程执行的代码出了问题,你经常可以看到这样的提示:“该程序执行了非法操作,即将关闭”,其实往往是某个线程出了问题,但是操作系统会强制结束整个进程。