Python 语言官方的参考手册钟,介绍了与 Python 一同发行的标准库。
文本处理服务
string --- 常见的字符串操作
re --- 正则表达式操作
difflib --- 计算差异的辅助工具
textwrap --- 文本自动换行与填充
unicodedata --- Unicode 数据库
stringprep --- 因特网字符串预备
readline --- GNU readline 接口
rlcompleter --- GNU readline 的补全函数
二进制数据服务
struct --- 将字节串解读为打包的二进制数据
codecs --- 编解码器注册和相关基类
数据类型
datetime --- 基本日期和时间类型
zoneinfo --- IANA 时区支持
calendar --- 日历相关函数
collections --- 容器数据类型
collections.abc --- 容器的抽象基类
heapq --- 堆队列算法
bisect --- 数组二分查找算法
array --- 高效的数值数组
weakref --- 弱引用
types --- 动态类型创建和内置类型名称
copy --- 浅层 (shallow) 和深层 (deep) 复制操作
pprint --- 数据美化输出
reprlib --- 另一种 repr() 实现
enum --- 对枚举的支持
graphlib --- 操作类似图的结构的功能
数字和数学模块
numbers --- 数字的抽象基类
math --- 数学函数
cmath --- 关于复数的数学函数
decimal --- 十进制定点和浮点运算
fractions --- 分数
random --- 生成伪随机数
statistics --- 数学统计函数
函数式编程模块
itertools --- 为高效循环而创建迭代器的函数
functools --- 高阶函数和可调用对象上的操作
operator --- 标准运算符替代函数
文件和目录访问
pathlib --- 面向对象的文件系统路径
os.path --- 常用路径操作
fileinput --- 迭代来自多个输入流的行
stat --- 解析 stat() 结果
filecmp --- 文件及目录的比较
tempfile --- 生成临时文件和目录
glob --- Unix 风格路径名模式扩展
fnmatch --- Unix 文件名模式匹配
linecache --- 随机读写文本行
shutil --- 高阶文件操作
数据持久化
pickle --- Python 对象序列化
copyreg --- 注册配合 pickle 模块使用的函数
shelve --- Python 对象持久化
marshal --- 内部 Python 对象序列化
dbm --- Unix "数据库" 接口
sqlite3 --- SQLite 数据库 DB-API 2.0 接口模块
数据压缩和存档
zlib --- 与 gzip 兼容的压缩
gzip --- 对 gzip 格式的支持
bz2 --- 对 bzip2 压缩算法的支持
lzma --- 用 LZMA 算法压缩
zipfile --- 使用ZIP存档
tarfile --- 读写tar归档文件
文件格式
csv --- CSV 文件读写
configparser --- 配置文件解析器
tomllib --- Parse TOML files
netrc --- netrc 文件处理
plistlib --- 生成与解析 Apple .plist 文件
加密服务
hashlib --- 安全哈希与消息摘要
hmac --- 基于密钥的消息验证
secrets --- 生成管理密码的安全随机数
通用操作系统服务
os --- 多种操作系统接口
io --- 处理流的核心工具
time --- 时间的访问和转换
argparse --- 命令行选项、参数和子命令解析器
getopt --- C 风格的命令行选项解析器
logging --- Python 的日志记录工具
logging.config --- 日志记录配置
logging.handlers --- 日志处理程序
getpass --- 便携式密码输入工具
curses --- 终端字符单元显示的处理
curses.textpad --- 用于 curses 程序的文本输入控件
curses.ascii --- 用于 ASCII 字符的工具
curses.panel --- curses 的面板栈扩展
platform --- 获取底层平台的标识数据
errno --- 标准 errno 系统符号
ctypes --- Python 的外部函数库
并发执行
threading --- 基于线程的并行
multiprocessing --- 基于进程的并行
multiprocessing.shared_memory --- Shared memory for direct access across processes
concurrent 包
concurrent.futures --- 启动并行任务
subprocess --- 子进程管理
sched --- 事件调度器
queue --- 一个同步的队列类
contextvars --- 上下文变量
_thread --- 底层多线程 API
网络和进程间通信
asyncio --- 异步 I/O
socket --- 底层网络接口
ssl --- 套接字对象的 TLS/SSL 包装器
select --- 等待 I/O 完成
selectors --- 高级 I/O 复用库
signal --- 设置异步事件处理程序
mmap --- 内存映射文件支持
互联网数据处理
email --- 电子邮件与 MIME 处理包
json --- JSON 编码和解码器
mailbox --- 操作多种格式的邮箱
mimetypes --- 映射文件名到 MIME 类型
base64 --- Base16, Base32, Base64, Base85 数据编码
binascii --- 二进制和 ASCII 码互转
quopri --- 编码与解码经过 MIME 转码的可打印数据
结构化标记处理工具
html --- 超文本标记语言支持
html.parser --- 简单的 HTML 和 XHTML 解析器
html.entities --- HTML 一般实体的定义
XML处理模块
xml.etree.ElementTree --- ElementTree XML API
xml.dom --- 文档对象模型 API
xml.dom.minidom --- 最小化的 DOM 实现
xml.dom.pulldom --- 支持构建部分 DOM 树
xml.sax --- 支持 SAX2 解析器
xml.sax.handler --- SAX 处理句柄的基类
xml.sax.saxutils --- SAX 工具集
xml.sax.xmlreader --- 用于 XML 解析器的接口
xml.parsers.expat --- 使用 Expat 的快速 XML 解析
互联网协议和支持
webbrowser --- 方便的 Web 浏览器控制工具
wsgiref --- WSGI 工具和参考实现
urllib --- URL 处理模块
urllib.request --- 用于打开 URL 的可扩展库
urllib.response --- urllib 使用的 Response 类
urllib.parse 用于解析 URL
urllib.error --- urllib.request 引发的异常类
urllib.robotparser --- robots.txt 语法分析程序
http --- HTTP 模块
http.client --- HTTP 协议客户端
ftplib --- FTP 协议客户端
poplib --- POP3 协议客户端
imaplib --- IMAP4 协议客户端
smtplib --- SMTP 协议客户端
uuid --- RFC 4122 定义的UUID对象
socketserver --- 用于网络服务器的框架
http.server --- HTTP 服务器
http.cookies --- HTTP状态管理
http.cookiejar —— HTTP 客户端的 Cookie 处理
xmlrpc --- XMLRPC 服务端与客户端模块
xmlrpc.client --- XML-RPC 客户端访问
xmlrpc.server --- 基本 XML-RPC 服务器
ipaddress --- IPv4/IPv6 操作库
多媒体服务
wave --- 读写WAV格式文件
colorsys --- 颜色系统间的转换
国际化
gettext --- 多语种国际化服务
locale --- 国际化服务
程序框架
turtle --- 海龟绘图
cmd --- 支持面向行的命令解释器
shlex —— 简单的词法分析
Tk图形用户界面(GUI)
tkinter —— Tcl/Tk 的 Python 接口
tkinter.colorchooser --- 颜色选择对话框
tkinter.font --- Tkinter 字体封装
Tkinter 对话框
tkinter.messagebox --- Tkinter 消息提示
tkinter.scrolledtext --- 滚动文字控件
tkinter.dnd --- 拖放操作支持
tkinter.ttk --- Tk 风格的控件
tkinter.tix --- TK扩展包
首先,32位平台理论上最多可以支持2**32,或4GB。但操作系统自己保留了其中的一大部分。在Windows上,默认情况下,这个数据块是整个2GB的(您可以将其配置为更低,但有些软件可能会崩溃,因为它假定使用“签名指针”是安全的),而在其他平台上,它通常更像512MB。类似地,64位平台理论上最多可以支持2**64,或16EB。在这里,无论操作系统的存储容量是512MB还是2GB,都不会产生显著的影响。
但是,您的硬件可能会限制在44到56位之间(大多数当前系统是48位),而44位只有256TB。
你的操作系统可能会把事情限制得更远。IIRC,最早的64位linux内核只使用40位(因为当时没有硬件可以使用更多),只有1TB。
最后,在Windows上,如果你使用的是“basic”或“starter”版本,那么对于windows8homebasic版本,它可能会限制到8GB。这是唯一一个可能影响你的文件。
但是,与后来32位的情况不同,2018年几乎没有人拥有比他们的操作系统一次分页更多的物理RAM。很多人在内存超过4GB的机器上运行32位Windows(或者64位Windows上运行32位Python),但是要在一个64位系统中加载一个40位有限操作系统的RAM超过1TB几乎是不可能的。
因此,无论您有多少RAM,您都应该能够将其大部分用于mmap。
有时,您希望mmap一个实际上无法放入RAM的文件。然后,您将依赖于操作系统的页面交换,这当然比窗口化更小的文件映射效率要低,但可能足够高效,而且可能要简单得多。
在这种情况下,它可能会在你的系统上工作,但是如果你不知道比你告诉我们的更多的信息,那就没有办法确定了。最简单的答案(和Python一样)是EAFP:尝试它,并准备处理它失败的异常(无论是通过编程方式,还是通过读取堆栈跟踪并搜索StackOverflow来寻找解决方案