Python多线程总结

2023-02-27 01:23:01Python011

Python多线程总结,第1张

在实际处理数据时，因系统内存有限，我们不可能一次把所有数据都导出进行操作，所以需要批量导出依次操作。为了加快运行，我们会采用多线程的方法进行数据处理， 以下为我总结的多线程批量处理数据的模板：

主要分为三大部分：

共分4部分对多线程的内容进行总结。

先为大家介绍线程的相关概念:

在飞车程序中，如果没有多线程，我们就不能一边听歌一边玩飞车，听歌与玩游戏不能并行；在使用多线程后，我们就可以在玩游戏的同时听背景音乐。在这个例子中启动飞车程序就是一个进程，玩游戏和听音乐是两个线程。

Python 提供了 threading 模块来实现多线程:

因为新建线程系统需要分配资源、终止线程系统需要回收资源，所以如果可以重用线程，则可以减去新建/终止的开销以提升性能。同时，使用线程池的语法比自己新建线程执行线程更加简洁。

Python 为我们提供了 ThreadPoolExecutor 来实现线程池，此线程池默认子线程守护。它的适应场景为突发性大量请求或需要大量线程完成任务，但实际任务处理时间较短。

其中 max_workers 为线程池中的线程个数，常用的遍历方法有 map 和 submit+as_completed 。根据业务场景的不同，若我们需要输出结果按遍历顺序返回，我们就用 map 方法，若想谁先完成就返回谁，我们就用 submit+as_complete 方法。

我们把一个时间段内只允许一个线程使用的资源称为临界资源，对临界资源的访问，必须互斥的进行。互斥，也称间接制约关系。线程互斥指当一个线程访问某临界资源时，另一个想要访问该临界资源的线程必须等待。当前访问临界资源的线程访问结束，释放该资源之后，另一个线程才能去访问临界资源。锁的功能就是实现线程互斥。

我把线程互斥比作厕所包间上大号的过程，因为包间里只有一个坑，所以只允许一个人进行大号。当第一个人要上厕所时，会将门上上锁，这时如果第二个人也想大号，那就必须等第一个人上完，将锁解开后才能进行，在这期间第二个人就只能在门外等着。这个过程与代码中使用锁的原理如出一辙，这里的坑就是临界资源。 Python 的 threading 模块引入了锁。 threading 模块提供了 Lock 类，它有如下方法加锁和释放锁：

我们会发现这个程序只会打印“第一道锁”，而且程序既没有终止，也没有继续运行。这是因为 Lock 锁在同一线程内第一次加锁之后还没有释放时，就进行了第二次 acquire 请求，导致无法执行 release ，所以锁永远无法释放，这就是死锁。如果我们使用 RLock 就能正常运行，不会发生死锁的状态。

在主线程中定义 Lock 锁，然后上锁，再创建一个子线程t 运行 main 函数释放锁，结果正常输出，说明主线程上的锁，可由子线程解锁。

如果把上面的锁改为 RLock 则报错。在实际中设计程序时，我们会将每个功能分别封装成一个函数，每个函数中都可能会有临界区域，所以就需要用到 RLock 。

一句话总结就是 Lock 不能套娃， RLock 可以套娃； Lock 可以由其他线程中的锁进行操作， RLock 只能由本线程进行操作。

众所周知，Python中不存在真正的多线程，Python中的多线程是一个并发过程。如果想要并行的执行程序，充分的利用cpu资源(cpu核心)，还是需要使用多进程解决的。其中multiprocessing模块应该是Python中最常用的多进程模块了。

基本上multiprocessing这个模块和threading这个模块用法是相同的，也是可以通过函数和类创建进程。

上述案例基本上就是笔者搬用了上篇文章多线程的案例，可见其使用的相似之处。导入multiprocessing后实例化Process就可以创建一个进程，参数的话也是和多线程一样，target放置进程执行函数，args存放该函数的参数。

使用类来创建进程也是需要先继承multiprocessing.Process并且实现其init方法。

Pool可以提供指定数量的进程，供用户调用，当有新的请求提交到pool中时，如果池还没有满，那么就会创建一个新的进程用来执行该请求。

但如果池中的进程数已经达到规定最大值，那么该请求就会等待，直到池中有进程结束，才会创建新的进程。

需要注意的是，在调用join方法阻塞进程前，需要先调用close方法，，否则程序会出错。

在上述案例中，提到了非阻塞，当把创建进程的方法换为pool.apply(func, (msg,))时，就会阻塞进程，出现下面的状况。

在multiprocessing模块中还存在Queue对象，这是一个进程的安全队列，近似queue.Queue。队列一般也是需要配合多线程或者多进程使用。

下列案例是一个使用进程队列实现的生产者消费者模式。

multiprocessing支持两种进程间的通信，其中一种便是上述案例的队列，另一种则称作管道。在官方文档的描述中，multiprocessing中的队列是基于管道实现的，并且拥有更高的读写效率。

管道可以理解为进程间的通道，使用Pipe([duplex])创建，并返回一个元组(conn1,conn2)。如果duplex被置为True(默认值)，那么该管道是双向的，如果duplex被置为False，那么该管道是单向的，即conn1只能用于接收消息，而conn2仅能用于发送消息。

其中conn1、conn2表示管道两端的连接对象，每个连接对象都有send()和recv()方法。send和recv方法分别是发送和接受消息的方法。例如，可以调用conn1.send发送消息，conn1.recv接收消息。如果没有消息可接收，recv方法会一直阻塞。如果管道已经被关闭，那么recv方法会抛出EOFError。

关于multiprocessing模块其实还有很多实用的类和方法，由于篇幅有限(懒),笔者就先写到这里。该模块其实用起来很像threading模块，像锁对象和守护线程(进程)等multiprocessing模块也是有的，使用方法也近乎相同。

如果想要更加详细的了解multiprocessing模块，请参考官方文档。

线程进程多线程模块方法

# 上一篇：ruby rose-break free什么意思

# 下一篇：部署服务器,java占据几个节点