python读取大文件处理时使用多线程

2023-02-27 06:34:01Python015

python读取大文件处理时使用多线程,第1张

如果有个很大的文件，几十G?，需要每次读取一部分，处理后再读取剩余部分。

with open as f 已经从内部处理难点，使用 for line in f 以迭代器的形式每次读取一行，不会有内存问题。

下面程序的思路是用一个列表存放读取到的数据，达到长度后就开始处理，处理完就清空列表，继续执行

python中读取数据的时候有几种方法，无非是read，readline，readlings和xreadlines几种方法，在几种方法中，read和xreadlines可以作为迭代器使用，从而在读取大数据的时候比较有效果.

在测试中，先创建一个大文件，大概1GB左右，使用的程序如下：

[python] view plaincopyprint?

import os.path

import time

while os.path.getsize('messages') <1000000000:

f = open('messages','a')

f.write('this is a file/n')

f.close()

print 'file create complted'

在这里使用循环判断文件的大小，如果大小在1GB左右，那么结束创建文件。--需要花费好几分钟的时间。

测试代码如下：

[python] view plaincopyprint?

#22s

start_time = time.time()

f = open('messages','r')

for i in f:

end_time = time.time()

print end_time - start_time

break

f.close()

#22s

start_time = time.time()

f = open('messages','r')

for i in f.xreadlines():

end_time = time.time()

print end_time - start_time

break

f.close()

start_time = time.time()

f = open('messages','r')

k= f.readlines()

f.close()

end_time = time.time()

print end_time - start_time

使用迭代器的时候，两者的时间是差不多的，内存消耗也不是很多，使用的时间大概在22秒作用

在使用完全读取文件的时候，使用的时间在40s，并且内存消耗相当严重，大概使用了1G的内存。。

其实，在使用跌倒器的时候，如果进行连续操作，进行print或者其他的操作，内存消耗还是不可避免的，但是内存在那个时候是可以释放的，从而使用迭代器可以节省内存，主要是可以释放。

而在使用直接读取所有数据的时候，数据会保留在内存中，是无法释放这个内存的，从而内存卡死也是有可能的。

在使用的时候，最好是直接使用for i in f的方式来使用，在读取的时候，f本身就是一个迭代器，其实也就是f.read方法

内存时候迭代数据文件

# 上一篇：linux下安装nloptr、AnnoProbe

# 下一篇：C语言中函数调用的问题？

给您推荐相同类型的内容：

路易威登的鞋子有哪些值得入手？
鞋面由黑曜石色覆盖，AIR字体用了白色线条勾勒，再配合生胶大底，使整款鞋更具复古意味。也是去年较手关注的鞋型之一。不过这款鞋，一些配色已经到了2000多价格，有些虚高。M2K设计有一种将鞋底和鞋身融为一体的感觉，设计新颖复古又拥有现代元素，
什么是Java面向对象程序设计？
《Java面向对象程序设计》通过丰富、实用的精选实例系统地介绍了使用Java语言进行面向对象程序设计的方法和技术，注重提高读者运用Java语言和面向对象技术解决实际问题的能力。全书共12章，内容包括面向对象程序设计概述，Java语言概述，J
python判断字符是否在字符串末尾
1.格式 endswith(suffix,beg=0,end=len(string)) 2、用途：endswith() 方法用于判断字符串是否以指定后缀结尾，如果以指定后缀结尾返回 True，否则返回 False。可选参数
多项式回归和多元式回归区别！
方差分析与回归分析是有联系又不完全相同的分析方法。方差分析主要研究各变量对结果的影响程度的定性关系，从而剔除对结果影响较小的变量，提高试验的效率和精度。而回归分析是研究变量与结果的定量关系，得出相应的数学模式。在回归分析中，需要对各变量对结
怎么用命令提示符运行java程序？
编写第一个java程序建议初学者利用记事本编写，这样可以练习自己的打字速度和自己的理解能力。[DiYiGeJava.java]编译保存之后，利用cmd命令进入这个文件的目录下1.用javac编译相对路径方式javac DiYiG
c语言，链表的反转，请写出代码，并讲解下，谢了！！！！！
扣着的是头节点（头子）车是首节点（首子）马是次节点（次子）牙签细的是指针指向，香头发黑的是指向，铁头细的是指向。根据步骤写程序的伪算法（3步4循环，7张图片搞定），如下：以下是while循环（条件：香头指向不为空）第一个循环把马弄到
沙田新城市广场有什么比较好的咖啡厅?
1)Starbucks(星巴克)沙田新城市广场一期第三层391号铺沙田新城市广场地下173-176及179-182号铺tel: 2696 9864沙田正街2-8号新城市广场第三期二楼2087号铺tel: 2604 10752)Pacific
怎么用python给软件写一个安装包文件？
你说的应该是自解压文件包安装后的文件并非真的安装只是把压缩包解压到你安装的地方而已而且这个文件应该是个绿色文件你可以直接运行后缀dll、sys、dat、最好不要改改后会无法运行那个链接可以直接删除当然了现在你所谓的安装后的文件夹也可以直接压
R包加载时出现如下错误求助
你好。Error in get(hookname, envir = env, inherits = FALSE) :无法分配大小为3.2 Gb的内存块错误: ‘org.Hs.eg.db’程辑包名字空间载入失败，load package都不
go模板文件引入js路径问题
Go语言模板文件可以引入js文件或css文件，但是在引入的过程中，需要注意以下几点：1. 引入的文件路径应该是相对路径，而不是绝对路径。2. 在引入js文件时，需要使用{{ url }} 模板函数，用来拼接路径，这样可以更好的兼容不同的路
R语言初学笔记：差异表达基因
setwd("E:GSE25066")#环境设置 library(limma)#加载差异分析包limma #将分组文件加载到环境中，分组信息第一列为样本名，第二列为分组信息如“high”“low” targ
go语言现在很重要么？？
Go作为Google2009年推出的语言，其被设计成一门应用于搭载 Web 服务器，存储集群或类似用途的巨型中央服务器的系统编程语言。对于高性能分布式系统领域而言，Go 语言无疑比大多数其它语言有着更高的开发效率。它提供了海量并行的支
R语言定义多维数组
R语言定义多维数组数组有一个特征属性叫做维数向量（dim属性），维数向量是一个元素取正整数值的向量，其长度是数组的维数，比如维数向量有两个元素时数组为二维数组（矩阵）。维数向量的每一个元素指定了该下标的上界，下标的下界总为1。一组值
R计算功能多样性— functional diversity (FD)
一般植物功能特征被划分为3类：一是植物形态特征, 包括生长型、生活型、植株高度等；二是植物生殖特征,包括传粉方式、扩散方式、种子重量等；三是植物生理特征, 如植物固氮能力等[30].为研究中包括的每个物种创建一个定性和或定量性状的
有什么外汇平台支持python
没有什么外汇平台是支持python的。python需要的仅仅是一个接口而已。这比运用mt4复杂。你所注册的外汇经纪商那里会给你提供接口，当然好多平台不给小客户提供。除此之外，即使经纪商提供了接口，好多细节资料，你要跟经纪商索取。即使用pyt
python生成的exe程序有返回值
想让脚本返回值，只需从包装代码的函数中执行return[1，2，3]。必须从另一个脚本中导入脚本才能使用该信息。返回值来自包装函数，同样，这必须由单独的Python脚本运行并导入才能起到任何作用。java执行这个脚本并获取返回值是等待脚本执
Go语言数组去重
在使用Go语言的时候，碰到了需要对数组进行去重操作的问题。Java语言有Set集合这个数据结构，可以很方便的将数组转为集合，但是Go语言没有Set，如果仅仅是因为去重操作就手动实现一个Set太繁琐了。可以根据Go语言中的map的特性来简单实
为什么那么多人都说GO语言的发展前景很好，要趁早学习呢？
因为与 CC++、Java、Python 等现在大多数的编程语言相比，Go 并没有那么多痛点，而且更具生产力，Go的高性能更加适应未来的互联网发展趋势，所以说GO语言是长远发展的必备利器，现在越早学习GO，获利越大，我是2年前就在慕课网学
如何管理python项目
Virtual Environments 首先Python似乎没有类似MavenAnt这样的项目管理工具。那么当一台机器上有多个python项目，且这些python项目各自有不同的依赖，不想互相干扰时怎么办呢？官方做法是使用Virtua
怎么用python生成随机数？
在Python中，random模块用于生成随机数。下面介绍下random模块中常用的几个函数 01打开我们python的ide02在打开的shell中，首先需要导入random库，才可以使用random中的方法，首先介绍下
编译java程序的命令是什么，运行java应用程序的命令是什么？
当前默认目录为C盘Users文件夹下的Administrator文件夹。一般而言，我们习惯改变当前目录。由于windows有磁盘分区，若要跳到其他磁盘，例如E盘，有几种方法：1、输入命令：pushd路径（此命令可将当前目录设为所希望的任一
时间序列无论怎么差分都不平稳，那怎么预测呢？
#额。。你居然使用matlab做的题= =。。。我是用R语言做的。。。matlab不知道代码怎么写。。但意思应该是一样的。。都是用那个automated model selection来做。。。#额话说我是大学本科数学还有统计专业的。。不知
C语言中函数调用的问题？
关于c语言中函数调用问题解答如下：首先如果是编译的这个代码那这个函数肯定被调用了，让你觉得没有调用是因为while循环没有被执行。图中红色框内代码p1和p2经过赋值p1是肯定大于p2所以不满足while.的条件直接退出了函数。你需要看
求一篇 C语言课程设计论文学校运动会管理系统设计论文大概十来页就行
搞诉我地址，我可以发给你试试这个，论文也有#include#defineA100inty=0,f=0,j,W,M,N,p[15],q[15]structstudent{charshool[20]charname[20]charitem[20
Python如何运行一个python程序
我们编写好一个python程序以后如何运行呢？下面我给大家分享一下。工具材料pycharm首先打开pycharm软件，我们右键单击新建一个python文件，如下图所示在python文件中简单的写一点程序语句，如下图所示
C语言星期几？
#include&ltstdio.h&gtint main(){int n,mchar a[8][20]={"www","星期一","星期二","星期
4.2 Go语言中包(Packages)的命名
包名本质上是所在目录的名称，我们在基础知识演示用例中进行扩展，进一步理解包名，执行前需要执行的命令请参考上一节，首先来看一下目录结构：此时，如果我们想使用subpackagesubsubfunc.go时，需要import的
义隆、飞凌、松翰的单片机哪个好
之前没有接触过着三个品牌的产品，刚刚查阅了一下，简单写一点：松翰是台湾的公司，他在工控方面推出的单片机是8位不知道什么架构的内核，ide也是自己做的，目前只支持汇编语言开发，并不支持gcc C语言开发，高级语言编译器好像还没有发布，199
「测试开发全栈化-Go」(1) Go语言基本了解
作为一个测试，作为一个测试开发，全栈化+管理是我们未来的发展方向。已经掌握了Java、Python、HTML的你，是不是也想了解下最近异常火爆的Go语言呢？来吧，让我们一起了解下。Go 是一个开源的编程语言
为什么Ruby程序员应该了解和掌握Docker
Docker技术在Ruby社区是有影响力的，我所知道的一些创业团队很早就在运用它来解决环境管理、持续集成以及部署的问题了。但是，也有一些同学尚未注意到这个技术，或者了解过后认为它不是很重要，所以我想讨论一下Docker对Ruby系技术的帮助

推荐阅读

热门文章

最新发布

标签列表

python读取大文件处理时使用多线程

给您推荐相同类型的内容：