python运行多线程程序会影响电脑硬件么

Python013

python运行多线程程序会影响电脑硬件么,第1张

PYTHON多进程CPU利用率高,PYTHON多进程反而慢

Python · 2022年7月14日 · 338 次浏览

导读

很多时候,当我们需要使用Python来处理大量的数据的时候,为了缩短处理的时间,我们会使用多线程或多进程来并行处理任务。

由于Python全局解释器锁的存在,导致在执行多线程的时候实际上只有一个线程在运行,这使得多核CPU无法发挥它真正的效率。而多进程就可以很好地解决这个问题。如果你打开多进程的姿势不对,会导致它比单进程更慢,下面我们就来看看如何正确地打开多进程。

实验环境

系统:Ubuntu16.04

Python:3.7

示例

这个示例是基于Python对图片做一个预处理

图片预处理

读取图片将图片转换为bytes数组

采用for循环处理批量图片

这里我们直接通过循环调用图片的预处理函数,其实也就是单进程。处理了1349张图片,一共花了将近10s。这里我为了方便就没有采用多次调用来取平均值了,如果大家想要计算得更加准确,可以采用取平均值。

采用进程池多进程处理图片

使用4个进程居然花了将近13s,按道理来说这不科学呀?4个进程的处理速度应该要快于单个进程,现在看来居然还更慢。也就是说,我们花了更多的硬件资源,居然还花费了更多的时间。这是为什么呢?

接下来看看,我们使用Queue来改进使用多进程对图片进行预处理

惊讶地发现,当我们将进程池改为根据进程的个数来分发任务时,居然速度要快将近一倍左右。

特别注意:这里其实使用多线程来处理会比多进程的速度更快,而且消耗的资源也要少点。举这个例子只是为了说明,影响多进程速度的原因。

影响进程速度的原因

进程池速度慢可能有下面几个原因:

CPU资源不足,开启更多的进程只会导致速度更慢

进程之间通信传输的数据量大

使用了Lock处理共享的数据

进程使用了大量的os.fork()

在上面的例子中,其实影响多进程速度的主要原因是因为调用preprocess函数每次都会返回一个image array占用的内存比较大,如果你将返回值由image array改为一个字符串你会发现最终它们的速度会差不多。

那为什么使用Queue的速度会比进程池快那么多呢?这里主要也是因为进程池在保存数据与Queue的差异导致的。

虽然说,我们在使用进程池的时候采用的也是异步调用的方式。但是,进程池在接受返回结果的时候使用了self.wait(timeout),而进程池最终返回结果的顺序也和调用的时候保持一致。而Queue在保存数据的时候,会通过后台的线程来写数据,所以它最终保存的结果是乱序的,相对来说它的速度会更快点。

python多线程延迟并发的解决方法如下:

1.python之中多线程的特点,实际上是将执行耗时长的任务放在前台,耗时短的任务放在后台,当处理器有空闲时或者是后台任务主动调用时就会将其拿到前台来执行,而在这个过程之中实际上每次还是执行的一个线程。

2.python多线程延迟并发指的则是当前python程序内有多个程序,也就是任务同时处于已启动运行到运行完毕之间,且这几个程序都是在同一个处理机上运行,但任一个时刻点上只有一个程序在处理机上运行。

3.python多线程延迟并发的好处就在于可以更加合理的去调配资源,因为多线程是使用CPU的多核处理器去完成任务的。而并发则是在同一处理器上完成任务,多线程实现并发的话就可以提高运行速度并且减少内存占用。

python由于GIL的关系,python的多线程并没有发挥多核的作用,这些线程都是在在单核上跑的

所以要想发挥多核的作用,就需要使用多进程,尽可能的在每一个CPU核心上分配到一个python进程。

所以要想跑满多核CPU就得多进程多线程互相结合