python删除打不开的pdf

2023-02-24 10:16:01Python012

python删除打不开的pdf,第1张

python删除打不开的pdf可以用以下方法：

1、python内要对pdf文件进行操作的话，一般都是使用PyPDF2这个第三方模块，而删除pdf页面则需要先将这个文件对象实例化到python中并且创建一个数据写入工具才可以来保存pdf文件。

2、使用for循环去迭代这个reader对象，这个reader对象还要调用getNumPages()方法，此方法的作用就是获取到这个pdf文件的页数，在循环之中创建一个空文档并且将获取到pdf页给写入。

1，引言

晚上翻看《Python网络数据采集》这本书，看到读取PDF内容的代码，想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则，这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力，能够把pdf格式转换成html标签，比如，div之类的标签，从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。

从而产生了一个问题：用Python爬虫的话，能做到什么程度。下面将讲述一个实验过程和源代码。

2，把pdf转换成文本的Python源代码

下面的python源代码，读取pdf文件内容(互联网上的或是本地的)，转换成文本，打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串，然后用StringIO转换成文件对象。（源代码下载地址参看文章末尾的GitHub源）

复制代码

from urllib.request import urlopen

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from io import StringIO

from io import open

def readPDF(pdfFile):

rsrcmgr = PDFResourceManager()

retstr = StringIO()

laparams = LAParams()

device = TextConverter(rsrcmgr, retstr, laparams=laparams)

process_pdf(rsrcmgr, device, pdfFile)

device.close()

content = retstr.getvalue()

retstr.close()

return content

pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")

outputString = readPDF(pdfFile)

print(outputString)

pdfFile.close()

复制代码

如果PDF文件在你的电脑里，那就把urlopen返回的对象pdfFile替换成普通的open()文件对象。

3，展望

这个实验只是把pdf转换成了文本，但是没有像开头所说的转换成html标签，那么在Python编程环境下是否有这个能力，留待今后探索。

4，集搜客GooSeeker开源代码下载源

1. GooSeeker开源Python网络爬虫GitHub源

5，文档修改历史

2016-05-26：V2.0，增补文字说明

2016-05-29：V2.1，增加第六章：源代码下载源，并更换github源的网址

文件转换成对象代码内容

# 上一篇：queue和column

# 下一篇：ruby方法总结，如图谢谢，满意再加分

给您推荐相同类型的内容：

R语言ggplot2边框背景去除
ggplot2是R语言功能强大的可视化包，但是在作图时有很多默认设置（边框，背景等）会影响图片美观度。比如我们用ggolot2做一个简单的柱状图，就会发现有灰色背景和白色线条。对于这一问题给出几种解决方案。 1.theme_classi
push message (短消息推送) 技术Java怎么实现,有没有大神可以讲解一下
push message (短消息推送) 技术Java怎么实现步骤如下:1、手机客户端client1发送一条“msg1”的文本消息到服务器2、服务器收到来自client1的“msg1”消息后，把它add进messageList里面3、服务器
ruby方法总结，如图谢谢，满意再加分
一.数组数组的创建 names = ["shiwanyin","jingshang","dapao","xishuai"] 数组对象数组对象未确定时，用
每个开发人员都应该知道的16个顶级新计算机编程语言
函数式语言 Elixir Elixir 比 Erlang 更容易编写，具有 Haskell 等语言的函数式编程概念。Elixir是基于Erlang 虚拟机的，其广为人知的特点是运行低延时、分布式、可容错的系统，并成
Selenium ruby常用api
#断言def assert_true(actual, expect) expect(actual).to eq(expect) end def assert_false(actual, expect) expect(actu
Java培训主要培训什么？
Java课程的培训内容主要分为三个大方面：前端、框架、分布式开发。Java课程培训推荐到粤嵌IT培训，该机构搭建企业学员就业双选渠道，助力100000+学员轻松就业，拥有科学的学习管理模式，最大化提升学习效率：学习手册、打卡学习、注重实战、
python基础教程
python基础教程：阶段一：Python开发基础：Python全栈开发与人工智能之Python开发基础知识学习内容包括：Python基础语法、数据类型、字符编码、文件操作、函数、装饰器、迭代器、内置方法、常用模块等。阶段二：Pytho
Java多线程程序设计初步入门
在Java语言产生前传统的程序设计语言的程序同一时刻只能单任务操作效率非常低例如程序往往在接收数据输入时发生阻塞只有等到程序获得数据后才能继续运行随着Internet的迅猛发展这种状况越来越不能让人们忍受如果网络接收数据阻塞
python中空对象包括哪些内容
python使用对象模型来存储数据。构造任何类型的值都是一个对象。所有python对象都拥有三个特性：身份、类型、值身份：每个对象都有一个唯一的身份标识自己，任何对象的身份可以使用内建函数 id() 来得到。类型：对象的类型决定了该对象可以
golang原生数据类型
golang原生数据类型：按长度：int8(-128-127)、int16、int32、int64。布尔型：布尔型的值只可以是常量true或者false。一个简单的例子：varbbool=true。数字类型：整型int和浮点型float32
如何用R绘制地图
这里主要介绍下在R语言中绘制地图的个人琢磨的思路。绘制地图步骤有三：你得需要绘制地图；（约等于废话）你得有要绘制地图的地理信息，经纬度啊，边界啊等等；你得利用2的数据在R中画出来。以上步骤中，目前最关键的是2，一旦2的数据有了，在R中不就是
python re $匹配字符串结尾的一个问题
真是个有意思的问题。help(re) 可以看到'$'Matches the end of the string or just before the newline at the end of the string.Z
网络爬虫是语言go，为什么？
不是啊，都可以啊，比如C（万能的啥都可以做），C++（也基本是万能的，爬虫不算啥），python（简单，几十行代码能搞定一个小型爬虫），go当然也可以。没有限制的！希望我的回答对你有帮助望采纳！我的思路是这样，因为自己起点低，还精力有限，又
pythonp文件转m文件
py“文件和”。m”文件是两种不同编程语言的不同类型的文件，分别是Python和Matlab。您不能直接转换“.”。py "文件到an "。m”文件。但是，你可以在Matlab中编写一个类似的程序，并将其保存为一个”。m
Go语言基础语法（一）
本文介绍一些Go语言的基础语法。先来看一个简单的go语言代码： go语言的注释方法：代码执行结果：下面来进一步介绍go的基础语法。 go语言中格式化输出可以使用 fmt 和 log 这两个标
golang安装第三包报错 exec: "hg": executable file not found in %PATH%
【解决过程】 1.很明显，是在windows的cmd中，找不到hg。而对于hg，如果是cygwin等环境，那肯定没问题，但是此处是cmd，所以没法用hg。 2.参考： `` [package code.google.c
R语言缺失值处理
2016-08-23 05:17 砍柴问樵夫数据缺失有多种原因，而大部分统计方法都假定处理的是完整矩阵、向量和数据框。缺失数据的分类：完全随机缺失：若某变量的缺失数据与其他任何观测或未观测变量都不相关，则数据为完全随
请帮忙把这些罗斯福总统不同时期的英文档案翻译成汉语《三十五》
56301(16) 00001898 富兰克林・D. 罗斯福与他的学校棒球队在Groton, 马萨诸塞09-1994.a.gif 56301(36) 00001932 富兰克林・D. 罗斯福09-1745.a.gif 56408 0
《米奇宝贝蛋》免费在线观看完整版高清,求百度网盘资源
《米奇宝贝蛋》百度网盘高清资源免费在线观看：链接: https:pan.baidu.coms16sAUu5St5W77ycVR9MuJdw?pwd=6sdn 提取码: 6sdn《米奇宝贝蛋》导演: 特里·隆编剧: 特里·隆、欧文·
C语言中增1减1运算符
c语言的前置++和后置++，称为自增运算符前置--和后置--称为自减运算符，下面以自增运算符的区别来加以介绍，自减类似如果单独写自增运算符为一个语句，二者没有区别++i和i++都是让i+1赋值给i但是如果把自增运算符写入到另外表达式中二者就
python在工作中的应用实例
我们都知道Python的用途十分多，但是能不能讲Python用到我们工作当中呢？当然是可以的 Python的用途之一就是实现办公自动化。有一句老话说得好：“机器多做事，人就少做事”。为了实现人们可以少动手多做事的目标，我
微框架 Python Flask 和 Ruby Sinatra，哪个更值得推荐
基于文本文档(Markdown) 设想好需要的基本需要的表、字段、类型；使用 Rails Migration 随着功能的开发逐步创建表；随着细节功能的开发、需求，逐步增加字段，删除字段，或者调整字段类型；第一个 Release 的时候清理
C语言编程：按题目要求从键盘输入乘车的起步价及行车公里数，输出车费？
按照题目要求编写的C语言程序如下#include&ltstdio.h&gtint main(){int price,kilometrefloat paymentprintf("请输入起步价：")
C语言高空坠球问题
#include &ltstdio.h&gtint main(void){int i, nint repeat, ridouble distance, heightscanf("%d", &amp
为什么除了Go语言，其他类C语言都是垃圾
没有语言是垃圾，语言是工具，关键在于使用者。1：go与c语言相比，go有垃圾回收，不会造成内存泄露问题，go的语法简洁优美，同样的c++100行代码go大概50行可以做到，go的目标是能做C++能做的事，虽然目前可能不太实际2：go的并行机
python的数据类型——列表
python中列表是最常见的一种数据类型，下面我们来看看列表的基本用法吧列表的表示：list=[ ] 用中括号表示或者list() 列表的作用：存储多个数据的数据类型列表可以存储多种数据类型，可以存储任何类型的数据列表的操
python if用法
Python条件语句是通过一条或多条语句的执行结果（True或者False）来决定执行的代码块。Python程序语言指定任何非0和非空（null）值为true，0 或者 null为false。Python 编程中 if 语句用于控制程序
go语言版本的Gossip协议包（memberlist）的使用
由于工作的契机，最近学习了下Gossip，以及go语言的实现版本HashiCorpmemberlist。网上有个最基本的memberlist使用的example，在下边的链接中，感兴趣可以按照文档运行下感受感受。本文主要讲解memberl
c语言中如何定义一个汗字的变量
3、4和5是错误的或者说是非法的。变量的定义：只能是字母（大写小写都可以，但是有区分）、数字和下划线（就是_）。再就是不能使用c语言中的关键字（比如for、if么得不可以作为变量名字）。其他的字符*!@?&gt&lt()等都
r语言安装mass包的代码
步骤如下：1、自动安装：需要联网，在R的控制台，输入install.packages("MASS")#安装MASS包。2、离线安装：下载你所需要的包文件到个人计算机目录中，打开R的菜单栏-&gtPackages-

推荐阅读

热门文章

最新发布

标签列表

python删除打不开的pdf

给您推荐相同类型的内容：