为什么python提取不出pdf文件的部分截图

2023-02-25 15:33:02Python022

为什么python提取不出pdf文件的部分截图,第1张

未设置指定区域。

未在规定截取区域导致python提取不出pdf文件的部分截图。

常见的PDF文档一般由Word另存为或PDF软件编辑，这种由文字和图片组成的普通文档。

题图来自 Camelot: List o’ 10 Intriguing Mythical Places

为获取LEED认证项目的评分表明细，可以从USGBC的项目页面上爬取，或者从pdf格式的项目评分表中解析得到。以重庆某LEED EM:OB v2009 Gold项目为例，USGBC上公布的 LEED项目得分表其格式并不统一，利用XPath爬取后需要进一步清洗处理。相对而言，LEED项目所对应的项目评分表PDF文件的数据更为规范完整。因此考虑尝试解析出PDF文件中的表格，以便后续分析。

Python 处理PDF文件的程序包，pdfminer、tabula、pdfplumber、camelot……查询资料表明，似乎普遍认为pdfminer的效果不怎么好，而tabula需要java支持，想偷懒于是只试了pdfplumber和camelot。

安装过程不赘述，直接来看运行结果。

pdfplumber无法直接解析出Scorecard.pdf文件中的表格，但实际上要解决此问题也并非难事。调整下思路，可先解析出pdf文件中的文本，让后通过分列来得到表格。

利用pdfplumber的extract_text()命令可解析出pdf文件中的文本，但由于本次需要解析的得分表pdf文件的排版的原因，左右两个表格的文本行并未完全对齐，因此如果直接解析完整页面上的文本的话，文字会出错。先用corp()命令指定识别范围，然后再extract_text()，识别得到的文本列表如下所示。

对于类似本例中Scorecard.pdf表格排版有错位的情况，也可以按照表格在页面中所处的位置，指定表格识别的范围。所用到的指令：camelot.plot()可以绘制出页面的略图，table_area参数可以指定表格识别的范围。

又及，Camelot原来是亚瑟王和圆桌骑士们的宫殿所在地，和Asgard的Valhalla一样，也是传说中的圣域。搜索camelot程序安装包时无意中学到的，涨知识了。

[1] Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比

[2] 用Python提取pdf文件中的表格数据

[3] python读取pdf文件

[4] Github: pdfplumber

[5] Camelot: PDF Table Extraction for Humans

[6] ImageMagick Installation

[7] ImageMagick之PDF转换成图片（image）

[8] LEED 2009 for Existing Buildings: Operations &Maintenance

[9] Camelot - Wikipedia

[10] List o’ 10 Intriguing Mythical Places

[11] Camelot识别pdf表格时的参数设置补充

表格文件项目文本页面

# 上一篇：Java是荷兰的什么地方

# 下一篇：R语言中怎么把数据第一列数据变成行标题

给您推荐相同类型的内容：

java中有哪些类?
Java有八大基本类型，可以分为四类：1、byte：byte数据类型是8位、有符号的，以二进制补码表示的整数；最小值是－128（－2^7）；最大值是127（2^7-1）；默认值是0；byte类型用在大型数组中节约空间，主要代替整
《学习Go语言》pdf下载在线阅读全文，求百度网盘云资源
《学习Go语言》百度网盘pdf最新全集下载:链接: https:pan.baidu.coms1XWqzgZeGlobfPFWjMRw1Tw?pwd=je9c 提取码: je9c简介：Google工程师亲授，从学习语言语法特性到函数
ruby的英文读音
ruby 英文发音：['ruːbɪ]中文释义：n. 红宝石；红宝石色例句：I wonder what kind of ring he got her? He bought me a ruby.我想知道他给她买的什么样的戒
python删除列表list中所有的零0元素
本来以为实现这个东西还不是小菜一碟，结果发现这个小东西竟然有坑，哼！这个方法一是没坑的方法，亲测有效：方法一：list=[1,0,0,2] lis=[] for i in list: if i
从零开始学Python爬虫（四）：正则表达式
Regular Expression，正则表达式，种使表达式的式对字符串进匹配的语法规则。我们抓取到的源代码本质上就是个超的字符串，想从提取内容。正则再合适不过了。正则的优点：速度快，效率
r语言arimax函数怎么预测
举一个例子吧，比如月度的数据，就是周期为12，它有季节影响。先对其1阶12步差分，通过看acfpac f看是简单加法模型，还是乘法季节模型如果是乘法模型那就要对季节部分模拟arima模型季节部分的arima是以周期位置的acf pac
R语言中实现层次聚类模型
R语言中实现层次聚类模型大家好！在这篇文章中，我将向你展示如何在R中进行层次聚类。什么是分层聚类？分层聚类是一种可供选择的方法，它可以自下而上地构建层次结构，并且不需要我们事先指定聚类的数量。该算法的工作原理如下：将每个数据点放入其自己的
学编程需要指点
1、VC、VB、Delphi …… ，你该学哪个？具体到编程而言，我要告诉你：任何一种计算机语言，都是计算机科学理论的载体或表现形式。C++很神吗？Java很酷吗？它们差距很远吗？是的。但从理论的层面上讲，它们没有区别，都是“面向对象”理
《数据结构与算法Python语言描述》pdf下载在线阅读全文，求百度网盘云资源
《数据结构与算法Python语言描述》百度网盘pdf最新全集下载:链接: https:pan.baidu.coms13XAS0SLNmxior29Jdxkutw?pwd=jdjq 提取码: jdjq简介：数据结构与算法Python
如何学习GO语言？
Go语言也称 Golang，兼具效率、性能、安全、健壮等特性。这套Go语言教程（Golang教程）通俗易懂，深入浅出，既适合没有基础的读者快速入门，也适合工作多年的程序员查阅知识点。Go 语言这套教程在讲解一些知识点时，将 Go 语言和其
IntelliJ idea配置Go开发环境
IntelliJ idea一个月，甚得我心，终弃Sublime、liteIDE。 IntelliJ idea是非常强大的一款IDE，支持丰富的插件。安装配置都是非常简单的，这里不多赘述，主要需要安装两个插件Go和File Watche
C语言知识总结
c语言概要第一章、概述1、c语言的基本知识1.1、c语言的执行步骤编辑-程序代码的录入，生成源程序*.c编译-语法分析查错，翻译生成目标程序*.obj（语法或逻辑错误，从第一个开始改，变量定义，语句格式，表达式格式等）链接-与其他目标程
小米ruby显卡腾讯会议视频绘制失败怎么回事
软件版本不支持。版本过于高级，运行不了，造成绘制失败，可以进行软件降级处理。腾讯会议是腾讯云旗下的一款音视频会议软件，于2019年12月底上线。具有300人在线会议、全平台一键接入、音视频智能降噪、美颜、背景虚化、锁定会议、屏幕水印等功能。
华为平板电脑为什么打不开c语言软件
与其他程序有冲突。根据查询华为官网可知，打不开c语言是因为c语言运行与其他程序有冲突，启用这个程序时关闭其他程序，暂时关闭杀毒软件的监控功能。华为技术有限公司是一家生产销售通信设备的民营通信科技公司，于1987年正式注册成立，总部位于中国广
r语言输出名字组成的爱心
第一，打开美图秀秀软件，找到上面一排的选项卡中的【拼图】，点击进入。第二，进入拼图页面之后，点击正中间的添加图片，将你所需要拼成爱心的几张照片进行添加，小编就选择用3张照片啦。第三，添加图片之后选择模板拼图，在右侧的在线素材内找到爱心的模板
有个树莓派和一个激光雷达还需要什么配件
计算机网络期末复习树莓派4B-ros-noetic-连接北阳激光雷达URG-04XL-UG01卓沅best原创关注1点赞·125人阅读今天将用树莓派装了个ros-noetic，准备用它和hokuyo激光雷达URG-04XL-UG01学一下S
python获取文件对象f名称属性的操作代码为
python获取文件对象f名称属性的操作代码为:OpenFile = open("file.txt","rt")print(OpenFile.readlineOpenFile.close最近在构思如何
Java网络爬虫怎么实现？
网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。x0dx0a传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系
ruby怎么录制自动化脚本啊？只看见了一个SciTE编辑器，如何录制脚本啊
SciTE只是一个文本的编辑器，顶多只能用来编写ruby脚本如果你想用ruby来录脚本的话selenium这个工具你听过吗，用的人也非常多它支持很多种语言，当然也包括rubyselenium IDE 就是可以用来录制脚本，录完之后可以选择一
JAVA包如何使用？
Java包(package)为了更好地组织类，Java提供了包机制，用于区别类名的命名空间。包的作用1、把功能相似或相关的类或接口组织在同一个包中，方便类的查找和使用。2、如同文件夹一样，包也采用了树形目录的存储方式。同一个包中的类名
三坐标怎么用同心圆建立坐标系
三坐标用同心圆建立坐标系方法：用柱坐标，柱坐标系中的三个坐标变量是 r、φ、z。与空间直角坐标系相同，柱坐标系中也有一个z变量。其中r为原点O到点M在平面xoy上的投影M‘间的距离，r∈[0,+∞),同心圆，指指城市土地利用的功能分区，
R语言中怎么把数据第一列数据变成行标题
1，read.xlsx(filename,sheet=1,head=T),如果你的第一行是数据，head=T会让第一列数据就会被强制为变量名，head=F则相反。这个需要xlsx包。2，如果已经载入数据，数据名为a，那么使用colnames
【R语言第3篇】用R进行主成分分析
主成分分析和探索性因子分析是两种用来探索和简化多变量复杂关系的常用方法。主成分分析（PCA）是一种将数据降维技巧，它将大量相关变量转化成一组很少的不相关变量，这些无相关变量称为主成分。探索性因子分析（EFA）是一系列用来发现一组
python爱心代码怎么运行
python代码运行方法如下：1、命令行：命令行在Windows系统上面可以称之为cmd，也可以称为控制台，但是它窗口程序的名称是命令提示符。在python安装完成之后就能够在命令行里编写python代码并运行了，win+r打开运行窗口后输
golang 有哪些比较稳定的 web 开发框架
第一个：Beego框架Beego框架是astaxie的GOWeb开发的开源框架。Beego框架最大的特点是由八个大的基础模块组成，八大基础模块的特点是可以根据自己的需要进行引入，模块相互独立，模块之间耦合性低。相应的Beego的缺点就是
Java 语言有哪三个分支，之间的区别是什么
Java 语言有哪三个分支，之间的区别是什么JAVA平台只要有以下三个大类Java 平台有三个版本，这使软件开发人员、服务提供商和设备生产商可以针对特定的市场进行开发：* Java SE（Java Platform，Standa
c语言四舍五入
# incloud &ltstdio&gtint main(void）{float a ；scanf（“%f”，&ampa）；a=（int）（a*1000+0.5）1000.0；printf （“%0.
如何用nginx+passenger部署Rails
具体步骤1.ruby安装下载源代码包到本地Linux主机，然后解压缩，进入该目录，进行配置，编译和安装，依次执行（提示没有权限时加sudo）：tar xzvf ruby-1.8.7.tar.gzcd ruby-1.8.7sudo .con
c语言求最小公倍数
1、首先介绍一下求最小公倍数的经典方法:辗转相除法有两整数a和b：① a%b得余数c② 若c=0，则b即为两数的最大公约数③ 若c≠0，则a=b，b=c，再回去执行①a * b除以最大公约数等于最小公倍数2、因此原问题也化为最小公倍数和
在Python 3 中的自定义排序怎么办
python3 sorted取消了对cmp的支持。 python3 帮助文档： sorted(iterable, key=None, reverse=False)reverse是一个布尔值。如果设置为True，列表元素将被倒序排列，默认为F

推荐阅读

热门文章

最新发布

标签列表

为什么python提取不出pdf文件的部分截图

给您推荐相同类型的内容：