python哪些标准库

2023-03-05 07:52:01Python013

python哪些标准库,第1张

标准库比较多功能也不同：

标准库

sys

系统相关的参数和函数。 sys 库一般用来访问和修改系统相关信息，比如查看 python 版本、系统环境变量、模块信息和 python 解释器相关信息等等。

操作系统接口模块。这个库提供了访问操作系统相关依赖的方式，比如输入输出操作、读写操作、操作系统异常错误信息、进程线程管理、文件管理、调度程序等等。

正则表达式操作。这个库是我喜欢并且经常会用到的库，在对大量字符串进行处理的时候用正则表达式是最快速有效的方式，但是正则表达式的学习曲线较高，有兴趣的朋友可以访问这个网站学习。

math

数学函数库。 math 库提供了对 C 语言标准定义的数学函数访问，比如数论（Number-theoretic）的各种表示方法、幂和对数函数（Power and logarithmic functions）、三角函数（Trigonometric functions）、常量圆周率（π）和自然常数（e）等等。

random

生成伪随机数。

伪随机数与随机数（真随机数）不同的是执行环境，随机数是真实世界中通过物理过程实践得出结论，而伪随机数是通过计算机的特定算法生成的数，所以这个过程是可预测的、有规律的，只是循环周期较长，并不能与现实场景相切合。

random库提供生成随机数，可以模拟现实世界中随机取数、随机抽奖等等。

logging

日志记录工具。这个库提供了对应用程序和库函数的日志记录，日常开发中我们经常需要通过日志打印出当前程序的运行状态，实时查看可能出现的堆栈异常和错误信息。

json

Json 编码和解码器。 json 库提供了对 json 数据的支持，日常开发中我们做前后端分离需要对传输数据 json 进行序列化和反序列化操作，以保证对数据的完整性和有效性，而序列化和反序列化其实就是编码和解码的过程。

pickle

Python 对象序列化库。 pickle 库支持对 python 对象进行序列化和反序列化操作，当我们需要将处理好的对象保存到文件或数据库中时，就可以将其序列化成二进制数据，从而更好的保存起来。

shelve

Python 对象持久化。简单的数据存储方案。

socket

底层网络接口。 socket（套接字）库提供了标准的BSD（伯克利套接字） Socket API，可以通过访问底层操作系统 Socket 的相关接口进行网络通讯。

datetime

基本日期和时间类型库。该库提供了各种简单和复杂的方式处理日期和时间，日常我们会用时间测算时间消耗、复杂度，对存储的创建时间和修改时间也需要进一步说明，对计时器的描述和控制也需要用到该库。

hashlib

安全哈希和消息摘要。摘要算法其实就是对某些数据进行加密（不可逆的加密算法），因为被加密的数据无法破解，所以就能防止被篡改。常见的摘要算法有 MD5、SHA1，一般我们会用 MD5 对用户口令进行加密，防止盗用后被轻易破解；而 SHA1 与 MD5 类似，但是 SHA1 会产生更长的长度，也更安全，但是算法的复杂性通常伴随着存储空间和时间的消耗。要说比SHA1更长的字符长度，还有 SHA224、SHA256、SHA384 和 SHA512，看名字就能知道。

大家都知道无论算法生成的字符长度如何都有可能发生碰撞（被破解），这是不可避免的，所以具体场景具体情况而定。

configparser

配置文件解析器。 configparser 库可以轻松定制配置文件，通过解析配置文件的信息我们就可以全局访问相关配置。

urllib

URL 处理模块。 urllib 库集成了处理 URLs（统一资源定位符）的各种模块：

URL urllib.request URL robots.txt urllib 库对访问网络有很好的支持，提供了对数据的访问和处理、文件的上传和下载、记录 cookie 和 session 等等。

itertools

为高效循环而创建迭代器的函数。 itertools 库也是经常需要用到，当我们要对某些数进行 for-in 时就需要先将其处理成一个可迭代对象，之后我们才能进行遍历操作。

collections

容器数据类型库。 collections 库提供了对所有容器数据类型的支持，包括 dict, list, set 和 tuple。我们可以用此库对不同数据类型进行操作，常有的函数方法有这些：

namedtuple() 创建命名元组子类的工厂函数 deque 类似列表(list)的容器，实现了在两端快速添加(append)和弹出(pop) ChainMap 类似字典(dict)的容器类，将多个映射集合到一个视图里面 Counter 字典的子类，提供了可哈希对象的计数功能 OrderedDict 字典的子类，保存了他们被添加的顺序 defaultdict 字典的子类，提供了一个工厂函数，为字典查询提供一个默认值 UserDict 封装了字典对象，简化了字典子类化 UserList 封装了列表对象，简化了列表子类化 UserString 封装了列表对象，简化了字符串子类化 functools

高阶函数和可调用对象上的操作。该库主要调用高阶函数，是常规函数的一种补充。目前库中包含以下几种函数：

cmp_to_key lru_cache total_ordering partial partialmethod reduce singledispatch update_wrapper wraps threading

线程并行库。 threading 库支持线程和多线程的操作，针对多线程并发的问题可以给数据加同步锁，一次只能让一个线程处理数据，从而避免出现数据读写混乱。

在 CPython 解释器上，因为GIL（全局解释器锁）锁机制的存在的，被设计成线程安全，所以同一时间只能执行一个线程，这就导致了多线程不能发挥出计算机的多核特性。

multiprocessing

进程并行库。 multiprocessing 库与 threading 库很类似，不同的是进程库可以创建子进程避开 GIL，从而弥补线程库存在的劣势和发挥计算机的多核特性。

timeit

测量小代码片段的执行时间。此库主要用来计算运行代码的时间消耗，支持多种方式传入参数。

atexit

退出处理器。当处理一个函数需要立马退出时可以使用该库。

abc

抽象基类。 abc 库定义抽象基类，以便其他类派生出新类。比如 collections 容器库中就有此派生出的 collections.abc 类，派生出来的类可以进一步实现。

asyncio

异步IO库。 asyncio 库是一个用 async/await 关键字编写并发的库，为多个异步框架提供基础功能，能够实现高性能的网络、Web服务器、数据库连接和分布式任务队列等。

copy

浅层和深层复制操作。 copy 库提供对对象的拷贝，我们都知道要制作对象副本，是无法通过简单值传递创建新变量的方式做到，因为新变量所指向的内存空间依旧是原对象本身，所以对新变量进行任何操作都会改变原对象。那么， copy 库就提供了制作对象副本的各种方法，会开辟一个新的内存空间存放副本对象，修改操作不会对原对象有任何干预。

csv

csv（Comma Separated Values）文件读写库。此库支持以纯文本的形式存储表格数据（数字和文本）。

operator

标准运算符替代函数库。此库是将 python 自有的运算符作为有效函数，比如表达式 x+y 可以用函数 operator.add(x, y) 表示；比如表达式 a*b 可以用函数 operator.mul(a, b) 表示，等等。

enum

枚举库。 enum 库支持创建枚举类来存储大量同类型的不可变常量，以便其他函数调用。创建出来的枚举类是可迭代对象，所以可以用 for-in 枚举出所有常量。

heapq

堆队列算法。这个模块提供了堆队列算法的实现，也称为优先队列算法。优先队列中的每个元素都有各自的优先级，优先级最高的元素最先得到服务。所以当我们要求前n最大/最小值的时候就可以用此算法来实现， heapq 库中也提供了相应函数实现。

http

HTTP 模块。 http 模块是一个包，收集了多个处理超文本传输协议的模块：

urllib.request http 模块通过 http.HTTPStatus 枚举定义了HTTP状态码以及相关联消息。

profile、pstats

性能分析工具。 profile 模块提供了 profile 和 cProfile 两种不同实现的性能分析工具，可用来描述程序各个部分的执行时间和频率，统计后的信息可以通过 pstats 模块保存并使用。

ssl

TLS/SSL（传输安全协议）。此模块提供对安全协议的支持，通过应用上下文，可将 TLS（传输层安全性协议）或其前身 SSL（安全套接层）支持安全协议，能为互联网通信提供安全和数据完整性保障。一般 HTTPS 协议都支持 TLS/SSL 加密。

unitest

单元测试框架。 unitest 库常用于单元测试，受到 JUnit 和其他主流测试库的启发， unitest 库的功能和函数与它们有着相似的风格。

uuid

UUID库。 uuid 库主要用途是生成随机字符串，库中有多个版本的 UUID 对象方法，比如版本 1、3、4 和 5 的 uuid1() 、 uuid3() 、 uuid4() 和 uuid5() 。需要注意的是，如果要生成随机字符串，可以使用 uuid1() 和 uuid4() ，但是 uuid1() 会存在隐私风险，因为生成的原理里边包含用户访问计算机的网络地址，而 uuid4() 是通过随机字符生成。

希望可以帮助到你。

python能够应用并行计算的模块有多个multiprocessing、pathos等。其中multiprocessing模块应用的较多，但对于数据挖掘场景来说，pathos模块更实用，尤其允许输入多个可变参数非常简单实用。

本文总结整理了常见的并行计算场景，编写parallel.py模块，主要利用pathos模块实现，可以实现单变量并行、多变量并行、并行嵌套等功能。通过tdqm模块增加了进度条，可以显示计算进度等信息，通过functools模块中的partial函数将静态参数冻结，以适应并行框架。

parallel.py

函数parallel的参数定义顺序需要注意： 必选参数--任意位置参数--默认参数--任意关键字参数 。

定义另一个parallel_main.py模块，用来展示各个场景下并行计算结果。

parallel_main.py

parallel函数使用注意点:

1 TensorFlow（贡献者：1757，贡献：25756，Stars：116765）

“TensorFlow 是一个使用数据流图进行数值计算的开源软件库。图形节点表示数学运算，而图形边缘表示在它们之间流动的多维数据阵列（张量）。这种灵活的体系结构使用户可以将计算部署到桌面、服务器或移动设备中的一个或多个 CPU/GPU，而无需重写代码。 ”

GitHub 地址：

https://github.com/tensorflow/tensorflow

2 pandas（贡献者：1360，贡献：18441，Stars ：17388）

“pandas 是一个 Python 包，、供快速，灵活和富有表现力的数据结构，旨在让”关系“或”标记“数据使用既简单又直观。它的目标是成为用 Python 进行实际，真实数据分析的基础高级构建块。”

GitHub 地址：

https://github.com/pandas-dev/pandas

3 scikit-learn（贡献者：1218，贡献者：23509，Stars ：32326）

“scikit-learn 是一个基于 NumPy，SciPy 和 matplotlib 的机器学习 Python 模块。它为数据挖掘和数据分析提供了简单而有效的工具。SKLearn 所有人都可用，并可在各种环境中重复使用。

GitHub 地址：

https://github.com/scikit-learn/scikit-learn

4 PyTorch（贡献者：861，贡献：15362，Stars：22763）

“PyTorch 是一个 Python 包，提供两个高级功能：

具有强大的 GPU 加速度的张量计算（如 NumPy）

基于磁带的自动编程系统构建的深度神经网络

你可以重复使用自己喜欢的 Python 软件包，如 NumPy，SciPy 和 Cython，以便在需要时扩展 PyTorch。”

GitHub 地址：

https://github.com/pytorch/pytorch

5 Matplotlib（贡献者：778，贡献：28094，Stars ：8362）

“Matplotlib 是一个 Python 2D 绘图库，可以生成各种可用于出版品质的硬拷贝格式和跨平台交互式环境数据。Matplotlib 可用于 Python 脚本，Python 和 IPython shell（例如 MATLAB 或 Mathematica），Web 应用程序服务器和各种图形用户界面工具包。”

GitHub 地址：

https://github.com/matplotlib/matplotlib

6 Keras（贡献者：856，贡者：4936，Stars ：36450）

“Keras 是一个高级神经网络 API，用 Python 编写，能够在 TensorFlow，CNTK 或 Theano 之上运行。它旨在实现快速实验，能够以最小的延迟把想法变成结果，这是进行研究的关键。”

GitHub 地址：

https://github.com/keras-team/keras

7 NumPy（贡献者：714，贡献：19399，Stars：9010）

“NumPy 是使用 Python 进行科学计算所需的基础包。它提供了强大的 N 维数组对象，复杂的（广播）功能，集成 C / C ++ 和 Fortran 代码的工具以及有用的线性代数，傅里叶变换和随机数功能。

GitHub 地址：

https://github.com/numpy/numpy

8 SciPy（贡献者：676，贡献：20180，Stars：5188）

“SciPy（发音为”Sigh Pie“）是数学、科学和工程方向的开源软件，包含统计、优化、集成、线性代数、傅立叶变换、信号和图像处理、ODE 求解器等模块。”

GitHub 地址：

https://github.com/scipy/scipy

9 Apache MXNet（贡献者：653，贡献：9060，Stars：15812）

“Apache MXNet（孵化）是一个深度学习框架，旨在提高效率和灵活性，让你可以混合符号和命令式编程，以最大限度地提高效率和生产力。 MXNet 的核心是一个动态依赖调度程序，可以动态地自动并行化符号和命令操作。”

GitHub 地址：

https://github.com/apache/incubator-mxnet

10 Theano（贡献者：333，贡献：28060，Stars ：8614）

“Theano 是一个 Python 库，让你可以有效地定义、优化和评估涉及多维数组的数学表达式。它可以使用 GPU 并实现有效的符号区分。”

GitHub 地址：

https://github.com/Theano/Theano

11 Bokeh（贡献者：334，贡献：17395，Stars ：8649）

“Bokeh 是一个用于 Python 的交互式可视化库，可以在现代 Web 浏览器中实现美观且有意义的数据视觉呈现。使用 Bokeh，你可以快速轻松地创建交互式图表、仪表板和数据应用程序。”

GitHub 地址：

https://github.com/bokeh/bokeh

12 XGBoost（贡献者：335，贡献：3557，Stars：14389）

“XGBoost 是一个优化的分布式梯度增强库，旨在变得高效、强大、灵活和便携。它在 Gradient Boosting 框架下实现机器学习算法。XGBoost 提供了梯度提升决策树（也称为 GBDT，GBM），可以快速准确地解决许多数据科学问题，可以在主要的分布式环境（Hadoop，SGE，MPI）上运行相同的代码，并可以解决数十亿个示例之外的问题。”

GitHub 地址：

https://github.com/dmlc/xgboost

13 Gensim（贡献者：301，贡献：3687，Stars ：8295）

“Gensim 是一个用于主题建模、文档索引和大型语料库相似性检索的 Python 库，目标受众是自然语言处理（NLP）和信息检索（IR）社区。”

GitHub 地址：

https://github.com/RaRe-Technologies/gensim

14 Scrapy（贡献者：297，贡献：6808，Stars ：30507）

“Scrapy 是一种快速的高级 Web 爬行和 Web 抓取框架，用于抓取网站并从其页面中提取结构化数据。它可用于从数据挖掘到监控和自动化测试的各种用途。”

GitHub 地址：

https://github.com/scrapy/scrapy

15 Caffe（贡献者：270，贡献：4152，Stars ：26531）

“Caffe 是一个以表达、速度和模块化为基础的深度学习框架，由伯克利人工智能研究（BAIR）/ 伯克利视觉与学习中心（BVLC）和社区贡献者开发。”