python3二进制文件读写直接加b不行吗

Python027

python3二进制文件读写直接加b不行吗,第1张

二进制模式,通常用来读取图片、视频等二进制文件。注意,它在读写的时候是以bytes类型读写的,因此获得的是一个bytes对象而不是字符串。在这个读写过程中,需要自己指定编码格式。在使用带b的模式时一定要注意传入的数据类型,确保为bytes类型。

s = 'this is a test'

b = bytes(s,encoding='utf-8')

f = open('test.txt','w')

f.write(s)

##这样没问题,正常写入了文件。

##-------------------------------------------------

s = 'this is a test'

b = bytes(s,encoding='utf-8')

f = open('test.txt','wb')##注意多了个b

f.write(s)

##报错

TypeError: a bytes-like object is required, not 'str'

##意思是它需要一个bytes类型数据,你却给了个字符串

##---------------------------------------------------

s = 'this is a test'

b = bytes(s,encoding='utf-8')

f = open('test.txt','wb')##注意多了个b

f.write(b)##将变量b传给它,b是个bytes类型

二、 + 模式:

对于w+模式,在读写之前都会清空文件的内容,建议不要使用!

对于a+模式,永远只能在文件的末尾写入,有局限性,建议不要使用!

对于r+模式,也就是读写模式,配合seek()和tell()方法,可以实现更多操作。

三、 编码问题

要读取非UTF-8编码的文件,需要给open()函数传入encoding参数,例如,读取GBK编码的文件:

>>>f = open('gbk.txt', 'r', encoding='gbk')

>>>f.read()

'GBK'

遇到有些编码不规范的文件,可能会抛出UnicodeDecodeError异常,这表示在文件中可能夹杂了一些非法编码的字符。遇到这种情况,可以提供errors参数,表示如果遇到编码错误后如何处理。

>>>f = open('gbk.txt', 'r', encoding='gbk', errors='ignore')

四、 文件对象操作

每当我们用open方法打开一个文件时,将返回一个文件对象。这个对象内置了很多操作方法。下面假设,已经打开了一个f文件对象。

1. f.read(size)

读取一定大小的数据, 然后作为字符串或字节对象返回。size是一个可选的数字类型的参数,用于指定读取的数据量。当size被忽略了或者为负值,那么该文件的所有内容都将被读取并且返回。

f = open("1.txt", "r")

str = f.read()

print(str)

f.close()

如果文件体积较大,请不要使用read()方法一次性读入内存,而是read(512)这种一点一点的读。

2. f.readline()

从文件中读取一行n内容。换行符为' '。如果返回一个空字符串,说明已经已经读取到最后一行。这种方法,通常是读一行,处理一行,并且不能回头,只能前进,读过的行不能再读了。

f = open("1.txt", "r")

str = f.readline()

print(str)

f.close()

3. f.readlines()

将文件中所有的行,一行一行全部读入一个列表内,按顺序一个一个作为列表的元素,并返回这个列表。readlines方法会一次性将文件全部读入内存,所以也存在一定的风险。但是它有个好处,每行都保存在列表里,可以随意存取。

f = open("1.txt", "r")

a = f.readlines()

print(a)

f.close()

4. 遍历文件

实际上,更多的时候,我们将文件对象作为一个迭代器来使用。

# 打开一个文件

f = open("1.txt", "r")

for line in f:

print(line, end='')

# 关闭打开的文件

f.close()

这个方法很简单, 不需要将文件一次性读出,但是同样没有提供一个很好的控制,与readline方法一样只能前进,不能回退。

几种不同的读取和遍历文件的方法比较:如果文件很小,read()一次性读取最方便;如果不能确定文件大小,反复调用read(size)比较保险;如果是配置文件,调用readlines()最方便。普通情况,使用for循环更好,速度更快。

5. f.write()

将字符串或bytes类型的数据写入文件内。write()动作可以多次重复进行,其实都是在内存中的操作,并不会立刻写回硬盘,直到执行close()方法后,才会将所有的写入操作反映到硬盘上。在这过程中,如果想将内存中的修改,立刻保存到硬盘上,可以使用f.flush()方法,但这可能造成数据的不一致。

# 打开一个文件

f = open("/tmp/foo.txt", "w")

f.write("Python 是一种非常好的语言。

我喜欢Python!!

")

# 关闭打开的文件

f.close()

6. f.tell()

返回文件读写指针当前所处的位置,它是从文件开头开始算起的字节数。一定要注意了,是字节数,不是字符数。

7. f.seek()

如果要改变位置指针的位置, 可以使用f.seek(offset, from_what)方法。seek()经常和tell()方法配合使用。

from_what的值,如果是0表示从文件开头计算,如果是1表示从文件读写指针的当前位置开始计算,2表示从文件的结尾开始计算,默认为0,例如:

offset:表示偏移量。

seek(x,0) : 从起始位置即文件首行首字符开始移动 x 个字符

seek(x,1) : 表示从当前位置往后移动x个字符

seek(-x,2):表示从文件的结尾往前移动x个字符

看一个例子:

>>>f = open("d:\1.txt", "rb+")

>>>f.write(b"1232312adsfalafds")

17

>>>f.tell()

17

>>>f.seek(5)

5

>>>f.read(1)

b'1'

>>>f.seek(-3, 2)

14

>>>f.read(1)

b'f'

8. f.close()

关闭文件对象。当处理完一个文件后,调用f.close()来关闭文件并释放系统的资源。文件关闭后,如果尝试再次调用该文件对象,则会抛出异常。忘记调用close()的后果是数据可能只写了一部分到磁盘,剩下的丢失了,或者更糟糕的结果。也就是说大象塞进冰箱后,一定不要忘记关上冰箱的门。

我们之前使用open方法读取文件

细心的朋友应该注意到,我们用open()打开文件以后,后面会跟着一个f.close()方法用来关闭文件,但是每次这么写,会很麻烦。

所以,我们接下来介绍一下with open()的用法

调用read()方法,会一次性读取全部文件内容,当文件内容较小时比较试用,但是当文件内容过大,很容易导致运行内存100%,所以我们可以反复调用read(size)来设置每次读取的字节内容。

写入文件内容时:

我们写入文件内容时,系统并不会立刻就把所有数据写入到磁盘,它是先放到内存中缓存,等到空闲的时候再慢慢写入到磁盘。

当调用close()方法时,系统才能保证把剩余没有写入的数据全部写入到磁盘。假如我们忘记调用了close()方法,那很可能导致我们的数据遗失。

为了保证万无一失,最好是使用with open()进行内容的读写。

try...finally

我在之前的文章里面讲过try...finally,finally里面的内容是不管是否发生异常都会被执行。

所以,对于open()方法我们有另一种写法:

但是呢,这种方法相比with open()实在是太麻烦了,所以我们只是简单说一下,并不建议大家去使用这个方法。

多个文件的读写方式

with open()和open()读写文件的方法是通用的,没有区别

Python两种输出值的方式: 表达式语句和 print() 函数。第三种方式是使用文件对象的 write() 方法,标准输出文件可以用 sys.stdout 引用。

如果你希望输出的形式更加多样,可以使用 str.format() 函数来格式化输出值。如果你希望将输出的值转成字符串,可以使用 repr() 或 str() 函数来实现。

str(): 函数返回一个用户易读的表达形式。

repr(): 产生一个解释器易读的表达形式。

str.format() 的使用

读取键盘输入

Python 提供了 input() 内置函数,从标准输入读入一行文本,默认的标准输入是键盘。

open() 用于打开一个文件,并返回文件对象,基本语法格式如下:

open(filename, mode='r')

完整的语法格式为:

open(filename, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

参数说明:

filename: 必需,文件路径+文件名称(相对或者绝对路径)

mode: 可选,文件打开模式:只读,写入,追加等,默认模式为只读(r)

buffering: 设置缓冲

encoding: 一般使用utf8

errors: 报错级别

newline: 区分换行符

closefd: 传入的file参数类型

opener: 设置自定义开启器,开启器的返回值必须是一个打开的文件描述符。

不同模式mode打开文件的说明:

t 文本模式 (默认的模式)

b 二进制模式,一般用于非文本文件如图片等

x 写模式,新建一个文件,如果该文件已存在则会报错

+ 打开一个文件进行更新(可读可写)

r 以只读方式打开文件。文件的指针将会放在文件的开头。是默认模式。

rb 以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。

r+ 打开一个文件用于读写。文件指针将会放在文件的开头。

rb+ 以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。

w 打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。

wb 以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。

w+ 打开一个文件用于读写。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。

wb+ 以二进制格式打开一个文件用于读写。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。

a 打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。

ab 以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。

a+ 打开一个文件用于读写。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建新文件用于读写。

ab+ 以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写。

f.write(string) 将 string 写入到文件中, 然后返回写入的字符数

f.writelines(sequence) 向文件写入一个序列字符串列表,如果需要换行则要自己加入每行的换行符。

f.read(size) 读取一定数目的数据, 然后作为字符串或字节对象返回。size 是一个可选参数。当 size 参数忽略或者为负, 那么该文件的所有内容都将被读取并且返回。

f.readline() 从文件中读取单独的一行。换行符为 '\n'。读取整行,包括 "\n" 字符。f.readline() 如果返回一个空字符串, 说明已经读取到最后一行。

f.readlines([sizeint])] 读取所有行并返回列表类型,若给定sizeint>0,返回总和大约为sizeint字节的行, 并且将这些字节按行分割。实际读取值可能比 sizeint 较大, 因为需要填充缓冲区。

f.tell() 返回文件对象当前所处的位置, 它是从文件开头开始算起的字节数。

f.seek() 移动文件读取指针到指定位置,如果要改变文件当前的位置, 可以使用f.seek(offset, from_what) 函数。from_what 的值(默认为0), 如果是 0 表示开头, 如果是 1 表示当前位置, 2 表示文件的结尾,例如:

seek(x,0) : 从起始位置即文件首行首字符开始移动 x 个字符

seek(x,1) : 表示从当前位置往后移动x个字符

seek(-x,2):表示从文件的结尾往前移动x个字符

file.flush() 刷新文件内部缓冲,直接把内部缓冲区的数据立刻写入文件, 而不是被动的等待输出缓冲区写入

file.fileno() 返回一个整型的文件描述符(file descriptor FD 整型), 可以用在如os模块的read方法等一些底层操作上

file.isatty() 如果文件连接到一个终端设备返回 True,否则返回 False

file.truncate([size]) 从文件的首行首字符开始截断,截断文件为 size 个字符,无 size 表示从当前位置截断;截断之后后面的所有字符被删除,其中 windows 系统下的换行代表2个字符大小。

f.close() 关闭文件并释放系统的资源。关闭后文件不能再进行读写操作,否则会抛出异常

当处理一个文件对象时, 使用 with 关键字是非常好的方式。在结束后, 它会帮你正确的关闭文件。 而且写起来也比 try - finally 语句块要简短:

python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作能够将程序中运行的对象信息保存到文件中去,永久存储。通过pickle模块的反序列化操作能够从文件中创建上一次程序保存的对象。

基本接口:

pickle.dump(obj, file, [,protocol])

有了 pickle 对象, 就能对 file 以读取的形式打开:

x = pickle.load(file)

从 file 中读取一个字符串,并将它重构为原来的python对象。

示例:使用pickle模块将数据对象保存到文件

示例:使用pickle模块从文件中重构python对象