python读取大文件处理时使用多线程

2023-02-26 02:45:02Python018

python读取大文件处理时使用多线程,第1张

如果有个很大的文件，几十G?，需要每次读取一部分，处理后再读取剩余部分。

with open as f 已经从内部处理难点，使用 for line in f 以迭代器的形式每次读取一行，不会有内存问题。

下面程序的思路是用一个列表存放读取到的数据，达到长度后就开始处理，处理完就清空列表，继续执行

工作中经常会遇到处理日志文件的问题：为了得到日志的最新状态，我们需要获取日志文件的最后部分行来做判断。那么，这种情况下我们应该怎么做呢？

1）常规方法：从前往后依次读取

步骤：open打开日志文件。

读取文件，获取文件的总行数。

遍历所有行，提取指定行的数据。

优点：简单，方便

缺点：当文件大了以后时间太慢，无法忍受

2）推荐方法：

步骤：open打开日志文件。

移动文件读取指针到文件末尾。

从后往前移动指针直到合适的位置。

读取文件，提取指定行的数据。

优点：时间相对固定，适合处理大文件

示例：

[python] view plain copy

logFile = open('logFilePath.log', 'r')

logFile.seek(0,2)

logFile.seek(-1000000,2)

rowCount = 0

for row in logFile.readlines()[1:]:

pass

seek():移动文件读取指针到指定位置

tell():返回文件读取指针的位置

seek()的三种模式：

（1）f.seek(p,0) 移动当文件第p个字节处，绝对位置

（2）f.seek(p,1) 移动到相对于当前位置之后的p个字节

（3）f.seek(p,2) 移动到相对文章尾之后的p个字节

文件指针位置日志字节

# 上一篇：在python 3.5中，cmp(a,b)被代替为(a>b)-(a<b)，请解释下(a>b)-(a<b)是什么意思

# 下一篇：win7下python2.7怎么安装pip

给您推荐相同类型的内容：

python给pdf添加文本框
1、使用阅读PDF，创建一个包含要使用ReportLab添加的文本的新pdf文件。2、将其另存为字符串对象使用读取字符串对象。3、使用创建一个新的PDF对象PdfFileWriter，将其称为输出遍历，输入内容并申请。4、要添加文本的每个页
大佬们谁有老男孩教育的Python爬虫视频教程百度云链接，万分感谢
Python入门视频教程：Python全栈开发+AI人工智能：https:ke.oldboyedu.comdetailterm_606fc3e4565c0_rGsnNW25?product_id=term_606fc3e456
《Python科学计算》epub下载在线阅读，求百度网盘云资源
《Python科学计算》（张若愚）电子书网盘下载免费在线阅读资源链接：链接：https:pan.baidu.coms1JbaLu9aCNl8HtLAqJBCIXw提取码：su9x书名：Python科学计算作者：张若愚豆瓣评分
c语言闰年的判断编程是什么?
四种方法判断闰年：第一种：条件嵌套语句（三个if…else…）。如果普通年能被4整除但不能被100整除，则为闰年，例如2020年为闰年。如果世纪年可被400整除，则为闰年，例如2000年为闰年。第二种则是直接条件判断，if…else
C语言中=是什么意思
C语言中的“=”不像我们平时数学中的"="，C语言中的"="是赋值的意思，但C也有像数学中表示等于的符号，它就是"=="意思是相等，==是关系运算符，用来判断两个值大小是否相同，当
c语言程序代码
C语言源代码，就是依据C语言规则所写出的程序代码，常见的存储文件扩展名为.c文件和.h文件，分别对应C源文件(source file)和C头文件(header file)。C语言是一门编程语言，简单点说，就是由人类书写按照一定规范书写的字
开淘宝用得上python吗
做的小的话用不着，做的大的话或许可以用到。Python是一种广泛使用的解释型、高级和通用的编程语言。[1]Python由荷兰数学和计算机科学研究学会的Guido van Rossum创造，第一版发布于1991年，它是ABC语言的后继者，也可
C语言的单引号怎么输入
需要准备的材料分别有：电脑、C语言编译器。1、首先，打开C语言编译器，新建一个初始.cpp文件，例如：test.cpp。2、在test.cpp文件中，输入C语言代码：char c = getchar()printf("%cn&
python中怎么调用自己的方法
CC++对Python的调用层次可以分为三个层次, (1) 高层次的调用, (2)纯Python调用, (3) Python方法的扩展(也就使向Python输出调用函数). 这里我主要讨论(1)和(2)两种方法.1 高层次的调用这是最简单
python协程爬取网易云歌单
@[toc] 首先通过网易分页歌单的url获取每份歌单的url，然后通过每份歌单的url提取歌单中的前十首歌的url，通过每首歌的url获取一些歌曲的作者和专辑等信息，整个过程通过协程来加快速度。1、抓取网页，模拟登陆等背后的通用的逻辑
python-docx生成默认有页码的word文档
要求：页码从第1章开始，按阿拉伯数字连续编排。页码位于页面底端，居中书写；虽然在python-docx 0.8.8 (2019-01-07)的版本中已经支持了word文档的页眉页脚的设置，但目前我也尚未找到怎么在页脚中显示页码。
Python中如何在一段时间后停止程序
用到threading的Timer，也类似单片机那样子，在中断程序中再重置定时器，设置中断，python实例代码如下：import threadingimport timedef change_user():print('这
c语言中如何实现模块化？
C语言中用函数来实现程序模块。模块化程序设计是将一个大的任务分解成若干个小任务，再将小任务分解成更小的任务，直到每一个任务都只完成一个独立功能。这样的每个任务都叫做模块，C语言中模块是用函数来实现的。借助函数来实现程序模块化，把你想实现的
C语言编写一个程序输出一个正方形
思路：输出正方形即输出正方形的外围就行，外围有个特点就是行列下标必有0或者是正方形的大小减一，输入一个n表示正方形大小，输出一个由*组成的正方形。参考代码：#include &ltstdio.h&gtint main()
c语言算法有哪些
这里整理c语言常用算法，主要有：交换算法查找最小值算法冒泡排序选择排序插入排序shell排序 (希尔排序)归并排序快速排序二分查找算法查找重复算法1.输入语句:scanf("控制格式",接受值列表),其中控制格式常用的有
Python GUI项目实战（二）主窗体的界面设计与实现
上一节我们介绍了登录窗体的GUI设计与功能实现，用户的账号和密码校验完成后应当跳转到主窗体内容，这一节我们将具体介绍主窗体界面的设计与功能实现！我们新建一个900x640的窗口，顶部加入图片，下面主体部分创建两个Panedwindow
c语言for嵌套循环
这段代码的意思是：三层嵌套，每层都是循环两次：0和1。然后把三层嵌套当前的值都打印出来。结果实际上是从0到7的二进制数，就是：000001010011100101110111里面的for循环相当于外部for循环的循环体，举一个例子：for(
python字符串操作‘’中间可以为空吗
使用字符串长度判断len(s) ==0则字符串为空if len(username) ==0 or len(password) == 0:#判断输入的用户名或密码是否为空print('用户名或密码不能为空')2、i
python中列表的增删改查
关于列表首先需要知道它是一系列按特定顺序排列的元素组成你可以创建包含字母表中所有字母、数字0至9或所有家庭成员姓名的列表；也可以将任何东西加入列表中，其中的元素之间可以没有任何关系。鉴于列表通常包含多个元素，给列表指定一个表示复的名称
谭浩强版C语言答案
C语言设计谭浩强第三版的课后习题答案（一)1．5请参照本章例题，编写一个C程序，输出以下信息： ************ Very Goodj! ************ 解： main() { printf(" ********
python的for循环语句怎么写
python的for循环语句写法：while 判断条件(condition)；执行语句(statements)。执行语句可以是单个语句或语句块。判断条件可以是任何表达式，任何非零、或非空（null）的值均为true。当判断条件假 fal
2021-04-04 python3集合运算：补集交集并集子集
A在B中的相对补集：元素属于B，但不属于A。写作B - A，读作“A在B中的相对补集”。以{1，2，3}为例说明子集和真子集：子集为{1}、{2}、{3}、{1，2}、{1，3}、{2，3}、它本身、再加个空集真子集
python选择结构分为哪几类?每一类的语法格式怎么书写?
分三类：单分支，双分支，多分支。输出用print()在括号中加上字符串，就可以向屏幕上输出指定的文字。比如输出'hello, world'，用代码实现如下：&gt&gt&gtprint('
如何用python实现图像的一维高斯滤波
如何用python实现图像的一维高斯滤波建议你不要使用高斯滤波。推荐你使用一维中值滤波matlab的函数为y = medfilt1(x,n)x为数组，是你要处理原始波形，n是中值滤波器的参数（大于零的整数）。y是滤波以后的结果（是数组）后面
python中时间戳小数点后面位数的含义
time.time()获取的字串为linux时间戳表示从1970年1月1日起至当前的天数或秒数如1394521866.78表示，这个时间为获取时到1970年1月1日的秒数，也就是1394521866.78s小数点后嘛，当然就是看你精确到多少
树莓派上用什么编程？
树莓派用python来进行编程。树莓派项目的一个核心思想是Python编程语言的使用。Python允许树莓派的拥有者将项目扩展到令人难以置信的规模。Python是一个解释型的面向对象的、跨平台的编程语言。良好的可靠性、清晰的语法和易用性，使
ubuntu如何升级python2.7
在ubuntu 的终端中用代码下载最新的Pythonsudo apt-get install python3系统会提示输入Linux 的密码，输入密码后下载刚才下载的Python程序被安装在usrlocallibpython3.5
python3IDE怎么导入cv 2
1.在命令行窗口输入python确定自己的版本，我用的是3.6.3 2.我原先就有numpy，就不需要下载了。（没有的自行下载）3.下载对应版本的opencv，电脑64位的还是32位的要认真看好，下载地址：https:www.lfd.u
c语言中sum是什么意思
这是自定义关键字，不属于C语言关键字，无固定含义。开发者可以自定义sum，一般用来表示求和变量。举例如下：#include&ltstdio.h&gtint main(){int a,b,suma=1b=1s
python正则表达式是什么呢？
python正则表达式如下：在python中，所谓的“正则表达式”指的是通常被用来检索、替换那些符合某个模式的一段文本。具体而言，它的作用是检测某个字符串是否符合规则和提取网页字符串中想要的数据。正则表达式是对字符串提取的一套规则，我们

推荐阅读

热门文章

最新发布

标签列表

python读取大文件处理时使用多线程

给您推荐相同类型的内容：