提升Python运行速度的5个小技巧

2023-02-16 10:57:01Python017

提升Python运行速度的5个小技巧,第1张

pre{overflow-x: auto}

Python 是世界上使用最广泛的编程语言之一。它是一种解释型高级通用编程语言，具有广泛的用途，几乎可以将其用于所有事物。其以简单的语法、优雅的代码和丰富的第三方库而闻名。python除了有很多优点外，但在速度上还有一个非常大的缺点。

虽然Python代码运行缓慢，但可以通过下面分享的5个小技巧提升Python运行速度！

首先，定义一个计时函数timeshow，通过简单的装饰，可以打印指定函数的运行时间。

这个函数在下面的例子中会被多次使用。

def timeshow(func): from time import time def newfunc(*arg, **kw): t1 = time() res = func(*arg, **kw) t2 = time() print(f"{func.__name__: >10} : {t2-t1:.6f} sec") return res return newfunc @timeshow def test_it(): print("hello pytip") test_it() 1. 选择合适的数据结构

使用正确的数据结构对python脚本的运行时间有显着影响。Python 有四种内置的数据结构：

列表 : List

元组 : Tuple

集合 : Set

字典 : Dictionary

但是，大多数开发人员在所有情况下都使用列表。这是不正确的做法，应该根据任务使用合适数据结构。

运行下面的代码，可以看到元组执行简单检索操作的速度比列表快。其中dis模块反汇编了一个函数的字节码，这有利于查看列表和元组之间的区别。

import dis def a(): data = [1, 2, 3, 4, 5,6,7,8,9,10] x =data[5] return x def b(): data = (1, 2, 3, 4, 5,6,7,8,9,10) x =data[5] return x print("-----:使用列表的机器码:------") dis.dis(a) print("-----:使用元组的机器码:------") dis.dis(b)

运行输出:

-----:使用列表的机器码:------

3 0 LOAD_CONST 1 (1)

2 LOAD_CONST 2 (2)

4 LOAD_CONST 3 (3)

6 LOAD_CONST 4 (4)

8 LOAD_CONST 5 (5)

10 LOAD_CONST 6 (6)

12 LOAD_CONST 7 (7)

14 LOAD_CONST 8 (8)

16 LOAD_CONST 9 (9)

18 LOAD_CONST 10 (10)

20 BUILD_LIST 10

22 STORE_FAST 0 (data)

4 24 LOAD_FAST 0 (data)

26 LOAD_CONST 5 (5)

28 BINARY_SUBSCR

30 STORE_FAST 1 (x)

5 32 LOAD_FAST 1 (x)

34 RETURN_VALUE

-----:使用元组的机器码:------

7 0 LOAD_CONST 1 ((1, 2, 3, 4, 5, 6, 7, 8, 9, 10))

2 STORE_FAST 0 (data)

8 4 LOAD_FAST 0 (data)

6 LOAD_CONST 2 (5)

8 BINARY_SUBSCR

10 STORE_FAST 1 (x)

9 12 LOAD_FAST 1 (x)

14 RETURN_VALUE

看下列表的机器码，冗长而多余！

2. 善用强大的内置函数和第三方库

如果你正在使用python并且仍在自己编写一些通用函数(比如加法、减法)，那么是在侮辱python。 Python有大量的库和内置函数来帮助你不用编写这些函数。如果研究下，那么你会惊奇地发现几乎90%的问题已经有第三方包或内置函数来解决。

可以通过访问官方文档查看所有内置函数。你也可以在wiki python上找到更多使用内置函数的场景。

比如，现在我们想合并列表中的所有单词为一个句子，比较法自己编写和调用库函数的区别:

# ❌ 正常人能想到的方法 @timeshow def f1(list): s ="" for substring in list: s += substring return s # ✅ pythonic 的方法 @timeshow def f2(list): s = "".join(list) return s l = ["I", "Love", "Python"] * 1000 # 为了看到差异，我们把这个列表放大了 f1(l) f2(l)

运行输出:

f1 : 0.000227 sec

f2 : 0.000031 sec

3. 少用循环

用列表推导式代替循环

用迭代器代替循环

用 filter() 代替循环

减少循环次数，精确控制，不浪费CPU

## 返回n以内的可以被7整除的所有数字。 # ❌ 正常人能想到的方法: @timeshow def f_loop(n): L=[] for i in range(n): if i % 7 ==0: L.append(i) return L # ✅ 列表推导式 @timeshow def f_list(n): L = [i for i in range(n) if i % 7 == 0] return L # ✅ 迭代器 @timeshow def f_iter(n): L = (i for i in range(n) if i % 7 == 0) return L # ✅ 过滤器 @timeshow def f_filter(n): L = filter(lambda x: x % 7 == 0, range(n)) return L # ✅ 精确控制循环次数 @timeshow def f_mind(n): L = (i*7 for i in range(n//7)) return L n = 1_000_000 f_loop(n) f_list(n) f_iter(n) f_filter(n) f_mind(n)

输出为:

f_loop : 0.083017 sec

f_list : 0.056110 sec

f_iter : 0.000015 sec

f_filter : 0.000003 sec

f_mind : 0.000002 sec

谁快谁慢，一眼便知！

filter 配合 lambda 大法就是屌！！！

4. 避免循环重复计算

如果你有一个迭代器，必须用它的元素做一些耗时计算，比如匹配正则表达式。你应该将正则表达式模式定义在循环之外，因为最好只编译一次模式，而不是在循环的每次迭代中一次又一次地编译它。

只要有可能，就应该尝试在循环外进行尽可能多的运算，比如将函数计算分配给局部变量，然后在函数中使用它。

# ❌ 应改避免的方式： @timeshow def f_more(s): import re for i in s: m = re.search(r'a*[a-z]?c', i) # ✅ 更好的方式： @timeshow def f_less(s): import re regex = re.compile(r'a*[a-z]?c') for i in s: m = regex.search(i) s = ["abctestabc"] * 1_000 f_more(s) f_less(s)

输出为:

f_more : 0.001068 sec

f_less : 0.000365 sec

5. 少用内存、少用全局变量

内存占用是指程序运行时使用的内存量。为了让Python代码运行得更快，应该减少程序的内存使用量，即尽量减少变量或对象的数量。

Python 访问局部变量比全局变量更有效。在有必要之前，应该始终尝试忽略声明全局变量。一个在程序中定义过的全局变量会一直存在，直到整个程序编译完成，所以它一直占据着内存空间。另一方面，局部变量访问更快，且函数完成后即可回收。因此，使用多个局部变量比使用全局变量会更好。

# ❌ 应该避免的方式： message = "Line1\n" message += "Line2\n" message += "Line3\n" # ✅ 更好的方式： l = ["Line1","Line2","Line3"] message = '\n'.join(l) # ❌ 应该避免的方式： x = 5 y = 6 def add(): return x+y add() # ✅ 更好的方式： def add(): x = 5 y = 6 return x+y add()

总结

本篇文章就到这里了，希望能够给你带来帮助，也希望您能够多多关注的更多内容!

1.学习 Python 包并实现基本的爬虫过程

大部分爬虫都是按“发送请求——获得页面——解析页面——抽取并储存内容”这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。Python中爬虫相关的包很多：urllib、requests、bs4、scrapy、pyspider 等，建议从requests+Xpath 开始，requests 负责连接网站，返回网页，Xpath 用于解析网页，便于抽取数据。

如果你用过 BeautifulSoup，会发现 Xpath 要省事不少，一层一层检查元素代码的工作，全都省略了。这样下来基本套路都差不多，一般的静态网站根本不在话下。当然如果你需要爬取异步加载的网站，可以学习浏览器抓包分析真实请求或者学习Selenium来实现自动化。

2.了解非结构化数据的存储

爬回来的数据可以直接用文档形式存在本地，也可以存入数据库中。开始数据量不大的时候，你可以直接通过 Python 的语法或 pandas 的方法将数据存为csv这样的文件。当然你可能发现爬回来的数据并不是干净的，可能会有缺失、错误等等，你还需要对数据进行清洗，可以学习 pandas 包的基本用法来做数据的预处理，得到更干净的数据。

3.学习scrapy，搭建工程化爬虫

掌握前面的技术一般量级的数据和代码基本没有问题了，但是在遇到非常复杂的情况，可能仍然会力不从心，这个时候，强大的 scrapy 框架就非常有用了。scrapy 是一个功能非常强大的爬虫框架，它不仅能便捷地构建request，还有强大的 selector 能够方便地解析 response，然而它最让人惊喜的还是它超高的性能，让你可以将爬虫工程化、模块化。学会 scrapy，你可以自己去搭建一些爬虫框架，你就基本具备Python爬虫工程师的思维了。

4.学习数据库知识，应对大规模数据存储与提取

Python客栈送红包、纸质书

爬回来的数据量小的时候，你可以用文档的形式来存储，一旦数据量大了，这就有点行不通了。所以掌握一种数据库是必须的，学习目前比较主流的 MongoDB 就OK。MongoDB 可以方便你去存储一些非结构化的数据，比如各种评论的文本，图片的链接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。因为这里要用到的数据库知识其实非常简单，主要是数据如何入库、如何进行提取，在需要的时候再学习就行。

5.掌握各种技巧，应对特殊网站的反爬措施

当然，爬虫过程中也会经历一些绝望啊，比如被网站封IP、比如各种奇怪的验证码、userAgent访问限制、各种动态加载等等。遇到这些反爬虫的手段，当然还需要一些高级的技巧来应对，常规的比如访问频率控制、使用代理IP池、抓包、验证码的OCR处理等等。往往网站在高效开发和反爬虫之间会偏向前者，这也为爬虫提供了空间，掌握这些应对反爬虫的技巧，绝大部分的网站已经难不到你了。

6.分布式爬虫，实现大规模并发采集，提升效率

爬取基本数据已经不是问题了，你的瓶颈会集中到爬取海量数据的效率。这个时候，相信你会很自然地接触到一个很厉害的名字：分布式爬虫。分布式这个东西，听起来很恐怖，但其实就是利用多线程的原理让多个爬虫同时工作，需要你掌握Scrapy+ MongoDB + Redis 这三种工具。Scrapy 前面我们说过了，用于做基本的页面爬取，MongoDB 用于存储爬取的数据，Redis 则用来存储要爬取的网页队列，也就是任务队列。所以有些东西看起来很吓人，但其实分解开来，也不过如此。当你能够写分布式的爬虫的时候，那么你可以去尝试打造一些基本的爬虫架构了，实现一些更加自动化的数据获取。

只要按照以上的Python爬虫学习路线，一步步完成，即使是新手小白也能成为老司机，而且学下来会非常轻松顺畅。所以新手在一开始的时候，尽量不要系统地去啃一些东西，找一个实际的项目，直接开始操作。

其实学Python编程和练武功其实很相似，入门大致这样几步:找本靠谱的书,找个靠谱的师傅，找一个地方开始练习。

学语言也是这样的：选一本通俗易懂的书，找一个好的视频资料，然后自己装一个IDE工具开始边学边写。

7.给初学Python编程者的建议：

①信心。可能你看了视频也没在屏幕上做出点啥，都没能把程序运行起来。但是要有自信，所有人都是这样过来的。

②选择适合自己的教程。有很早的书籍很经典，但是不是很适合你，很多书籍是我们学过一遍Python之后才会发挥很大作用。

③写代码，就是不断地写，练。这不用多说，学习什么语言都是这样。总看视频，编不出东西。可以从书上的小案例开始写，之后再写完整的项目。

④除了学Python，计算机的基础也要懂得很多，补一些英语知识也行。

⑤不但会写，而且会看，看源码是一个本领，调试代码更是一个本领，就是解决问题的能力，挑错。理解你自己的报错信息，自己去解决。

⑥当你到达了一个水平，就多去看官方的文档，在CSDN上面找下有关Python的博文或者群多去交流。

希望想学习Python的利用好现在的时间，管理好自己的学习时间，有效率地学习Python，Python这门语言可以做很多事情。

爬虫数据函数机器码列表