python 处理大数据程序运行的越来越慢的问题

2023-02-24 23:43:02Python018

python 处理大数据程序运行的越来越慢的问题,第1张

最近编写并运行了一个处理1500万个数据的程序，本来最初每秒可以处理150个左右的数据，预计大概15个小时的时间就可以处理完，晚上的时候就开始运行，本以为等到第二天中午就可以得到结果呢，，，

可是，等我第二天的时候一看，什么？？？还没处理完，当前的数据处理速度变成了一秒5个左右，然后还需要等待300个小时。

然后就查了一下这个问题，原来同样也有很多人在处理大数据的时候遇到了这个问题，大多数的文章分析的原因都是说由于GC（垃圾回收）造成的性能下降。

Python的垃圾回收机制的工作原理为每个对象维护一个引用计数，每次内存对象的创建与销毁都必须修改引用计数，从而在大量的对象创建时，需要大量的执行修改引用计数操作，对于程序执行过程中，额外的性能开销是令人可怕的。回收的触发时机有两种可能，一是用户主动调用gc.collect(),二是对象数量超过阈值。

所以正是GC拖慢了程序的性能，所以我们可以考虑在处理的时候禁止垃圾回收。

通过这样的改进之后速度确度会有很大的提升。但是又有也会另外的一个问题，内存溢出，由于运行的过程中生成大量的对象，一次使用后就没有了引用，由于关闭了垃圾回收机制，一直存在内存中得不到清理，然后程序的内存使用量越来越大。解决的方法就是定期打开gc.enable()再关闭或者主动调用gc.collect(),这样就可以了。

通过上述的改进后程序确实了很多，可是我的程序还是运行的越来越慢，我都怀疑人生了，然后分别测试了各个步骤所花费的时间才知道了原因，我使用了pandas创建一个DataFrame,然后每次迭代得到的结果都添加新的数据到DataFrame中，随着里边的数据越来越多，添加的速度也就越来越慢了，严重的拖累的运行速度。这里的解决方法有两个：

1 分段保存结果，间隔一段时间就保存一次结果，最后再将多次的结果合并。

2 换一个数据存储方法，我是直接使用了python的字典进行保存结果，它随着数据的增多添加的速度也会变慢，但是差别不是很大，在可接受的范围内，可以使用；或者再加上方法1，分段进行保存再合并也是可以的。

yxhtest7772017-07-18

关注

697 2

python运行速度慢怎么办？6个Python性能优化技巧

Python是一门非常酷的语言，因为很少的Python代码可以在短时间内做很多事情，并且，Python很容易就能支持多任务和多重处理。

Python的批评者声称Python性能低效、执行缓慢，但实际上并非如此：尝试以下6个小技巧，可以加快Python应用程序。

关键代码可以依赖于扩展包

Python使许多编程任务变得简单，但是对于很关键的任务并不总是提供最好的性能。使用C、C++或者机器语言扩展包来执行关键任务能极大改善性能。这些包是依赖于平台的，也就是说，你必须使用特定的、与你使用的平台相关的包。简而言之,该解决方案提供了一些应用程序的可移植性,以换取性能,您可以获得只有通过直接向底层主机编程。

下面这些扩展包你可以考虑添加到你的个人扩展库中：

Cython

PyInlne

PyPy

Pyrex

这些包有不同的作用和执行方式。例如，Pyrex 让Python处理一些内存任务变得简单高效；PyInline可以直接让你在Python应用程序中使用C代码，虽然内联代码被单独编译，但是如果你能高效的利用C代码，它可以在同一个地方处理每一件事情。

使用关键字排序

有很多古老的Python代码在执行时将花费额外的时间去创建一个自定义的排序函数。最好的排序方式是使用关键字和默认的sort()方法。

优化循环

每一种编程语言都强调循环语句的优化，Python也是一样的。尽管你可以依赖于丰富的技术让循环运行的更快，然而，开发者经常忽略的一个方法是避免在循环内部使用点拼接字符串。

使用新版本

任何一个在线上搜索Python资料的人都会发现无数关于Python版本迁移的信息。通常，Python每一个版本都针对之前的一个版本做了优化和改进，以让Python运行的更快。限制因素是你喜欢的函数库是否也针对Python的新版本做了改进。