Python利器：如何处理PDF表格数据

2023-03-02 04:00:01Python016

Python利器：如何处理PDF表格数据,第1张

大家好，我是Peter~

在很多情况下，我们都需要处理PDF格式的文件。尤其当我们遇到PDF表格数据需要进行提取，真的是一个令人头疼的问题。

因为PDF文件不能像Word那样直接复制，即使复制了再黏贴也可能会出现格式排版错乱甚至乱码问题。如何从一个PDF文件提取出表格数据？本文提供两个解决方案：

首先提供的一种方法是从文字 PDF 中提取表格信息的工具：Camelot，它能够直接将大部分表格转换为 Pandas 的 Dataframe。

更多的详细信息，请参考项目地址： https://github.com/camelot-dev/camelot

camelot的安装有多种方式。如果有报错，网上一般有解决方式：

1、通过conda安装

2、使用pip进行安装

3、通过GitHub进行安装

首先将项目复制到本地：

然后进入文件中进行安装：

下面通过一个案例来讲解如何使用camelot。假设我们现在有一个只有一页的PDF文件test.pdf：

1、先读取文件

导出成csv格式的数据（方式1）

查看tables的相关信息：

导出方式2：

将数据转换成DataFrame：

tabula的功能比camelot更加强大，可以同时对多个表格数据进行提取。项目的具体地址请参考： https://github.com/chezou/tabula-py

tabula的安装是非常简单的：

安装之后检验这个库是否安装成功：

通过tabula这个库来读取PDF文件：

然后我们发现列表中唯一的一个元素就是dataframe：

将读取到的数据输出成CSV格式的文件：

上面读取的PDF文件是比较简单的，只有一页，而且刚好是一个很标准的表格形式的数据，下面看一个比较复杂的例子：

下面是第一页，第一列可以看成是索引：

在第二页中有两份表格，而且中间有很多的空白行：

第三页的数据比较标准：

这3页是在同一个PDF文件中，这3页是在同一个PDF文件中，这3页是在同一个PDF文件中

上面的红色提示中我们看到：当没有指定pages参数的时候，只会默认读取第一页的数据，所以列表的长度为1。

转成dataframe后将原来的索引变成新的一列 （部分数据）

通过pages来读取全部数据：

通过指定pages="all"：

同时获取两个表格的数据：

通过area参数来指定：

删除在读取的表格中我们不需要的字段信息

可以将得到的数据输出成不同格式的文件，以json格式为例：

我们可以看到

pdfplumber 是一个开源 python 工具库-，可以方便地获取 pdf 的各种信息，包括文本、表格、图表、尺寸等。完成我们本文的需求，主要使用 pdfplumber 提取 pdf 表格数据。

python 中还有很多库可以处理 pdf，比如 PyPDF2、pdfminer 等，本文选择pdfplumber 的原因在于能轻松访问有关 PDF 的所有详细信息，包括作者、来源、日期等，并且用于提取文本和表格的方法灵活可定制。大家可以根据手头数据需求，再去解锁 pdfplumber 的更多用法。

数据表格文件格式是在

# 上一篇：如何查看路由器的登录密码

# 下一篇：wScratchPad.js刮刮卡在手机刮不开，怎么解决，麻烦了，求大神

给您推荐相同类型的内容：

如何让电脑显示动态图片？
步骤如下：1、右击图片，选择图片打开方式。2、浏览器打开后gif图片就是动态的了。GIF就是图像互换格式，是一种位图图形文件格式，以8位色重现真彩色的图像。它实际上是一种压缩文档，采用LZW压缩算法进行编码，有效地减少了图像文件在网络上传
为什么电脑连接了无线网却无法上网？
电脑连接不上网的原因很多，可以按照以下方法和步骤，逐项排查并修复：1，先看看电脑或者笔记本是否把无线网络或者WiFi功能关闭了，一种是系统或者软件带有的无线网络和WiFi的开关设置，另一种是电脑或者笔记本自身的硬件开关，解决方法：重新开启这
两台电脑之间如何传输文件
原理是利用电脑之间局域网的传送功能，用网线直接将两台电脑连接起来就可以快速传送大文件。步骤：1.先将两台电脑开机，然后用网线连接起来，可以直接插在平时上网用的端口；2、找到电脑里需要传送的文件，然后设置共享，方法是选中文件夹，右键单击，点击
java多线程更新数据库批量的数据信息吗?怎么实现?
将数据库中的数据条数分段 public void division(){获取要导入的总的数据条数String sql3="SELECTcount(*)FROM [CMD].[dbo].[mycopy1]&q
电脑怎么开关机？
电脑关机步骤：1、普通又自信：开始菜单关机。最常见的方式就是通过Windows呼出开始菜单——电源选项——关机，这个步骤是告诉电脑要关机，电脑会执行一系列的保存和关机动作，从而关机。这个方法非常普通，很多用户都使用这种方式，而说它自信，是因
QQ三国JS群攻有哪两招？
JS只有两个群技能25级剑荡八荒优点是体力消耗极小，技能无冷却时间，出招快暴击稳定。缺点是伤害小，不适合PK，只适合练级。55级剑气冲九宵优点是技能效果绚丽，出招时带着灭字，并附电击。技能伤害高，暴击致命率高。缺点是体力消耗大，技能冷却
为什么手机插在电脑上充不了电
手机连接电脑usb，无法充电，一般有两种情况：缺少驱动和主板供电不足。一、电脑提示：发现未知设备，说明缺少驱动。连接手机和电脑，打开控制面板。2.打开管理工具中的计算机管理。3.在右侧导航里面选择设备管理器。4.双击通用串行总线控制器。
做设计的用什么电脑好
问题一：做设计用什么笔记本好品牌就不推荐了，但有几个重要指标你需要牢记： 1、大屏幕，最好15寸以上，尽量不要用15寸以下的，17或19寸最好； 2、独立显卡，除非万不得已不要选集成显卡的，最好是显存2G以上的； 3、大内存
wScratchPad.js刮刮卡在手机刮不开，怎么解决，麻烦了，求大神
wScratchPad.js刮刮卡在手机刮不开网上搜到解决的方法：在这三个scratchDown、scratchMove、scratchUp函数数的开始分别加入$(this.canvas).css('margin-right�
苹果电脑如何清理缓存?
MAC系统怎么清理缓存啊？黄的部分就是除了“音频、影片、照片、App Store上下载的程序”以外的所有东西。从App Store上下载的程序被归类到应用程序里，比如ibook、ilife之类的，而从第三方渠道获取的应用程序，比如
电脑录屏软件哪个好用
录屏软件比较好用的有：腾讯会议、录屏大师、嗨格式录屏、爱自拍录屏、转转大师录屏等。1、腾讯会议腾讯会议是腾讯云旗下的一款音视频会议软件，于2019年12月底上线。具有300人在线会议、全平台一键接入、音视频智能降噪、美颜、背景虚化、锁定
js多个数组取交集(三个及以上)
原数组 const serveralArr = [ [1,2,4,5,23,3,2,2,4,3,5,5], [3,2,3,2,2,4,3,1,4,5,6], [3
Html页面代码中为什么要使用<form>表单标签，使用该标签有什么意义？
html&ltform&gt表单标签使用在一个网页中数据提交标签。例如，可以在留言板，评论等中填写数据，表单提交标签是提交处理所必需的。&ltform&gt表单标签包含输入框input，单选，多选，sel
电脑模拟器是什么东西?
电脑上的多玩模拟器是什么你好，其实就是一个虚拟搭载安卓app的模拟器。一般模拟器有的功能都有，按键适配、录屏、自己添加应用。特别的功能是，支持电脑端开播，另外有些有些用这个模拟器不会被封。PC模拟器到底是啥？？？可以这么
电脑xp是什么意思
一般来说，网络上xp是指的电脑xp系统，也就是Windows XP，其中xp来源于Experience，是体验的意思，关于Windows XP需要了解的是，Windows XP是在2001年问世的，而且是在Windows 2000基础上开发
html中的li和ul是什么标签
&ltli&gt标签定义列表项目。可用在有序列表 (&ltol&gt) 和无序列表 (&ltul&gt) 中。&ltul&gt标签定义无序列表。所有主流浏览器都支持 &am
笔记本电脑哪个牌子好?
笔记本品牌在国内口碑不错的品牌主要有：联想、惠普、华硕、宏碁等品牌。一、联想联想笔记本的特点是触角伸得很长，高中低端、轻薄本游戏本触控本，几乎各个方面都有涉及。联想官网还提供笔记本私人专属订制服务。相对其他品牌，联想笔记本的特点是产品类
如何把电脑c盘空间扩大？
把电脑c盘空间扩大的步骤：1、扩展分区向导是内嵌在分区助手中的一个很有用的工具，首先要先下载个分区助手。安装运行之后的样子如下图。2、找到向导部分的“扩展分区向导”按钮，点击。3、点击“扩展分区向导”，之后会弹出个窗口，在此窗口中选择你想
为什么猫咪喜欢靠近电脑脑筋急转弯
你可能问的是“为什么猫喜欢坐在电脑上面”。猫咪之所以喜欢坐在电脑上面，有可能是为了引起你的注意，让你陪它玩。也有可能是因为电脑长时间开着，温度比较高。因为猫咪的体温是会比人的体温高的，电脑上比较高的温度会让猫咪觉得比较舒服，所以猫咪会喜欢躺
js消息推送如何实现
主要介绍其中的五种实现方式：短轮询、Comet、Flash XMLSocket、Server-sent、WebSocket1、短轮询指在特定的的时间间隔（如每10秒），由浏览器对服务器发出HTTP request，然后由服务器返回最新的数据
哪个CSS属性可控制文本的尺寸?
1：文本的大小：fint-size:14px2：文本的行高（可能文本的占用高度太高吧这里可以行高。）：line-height: 2.0后面的2.0可以自己改。3：文本的加粗：font-weight:bold那就是顶部有个?* CSS
电脑直接连光猫怎么设置上网
方法如下：1、输入光猫后台地址：192.168.1.1。2、跳转到终端首页，输入账号密码登录。3、登录后，在首页选择“网络，然后进入网络设置页面。4、点击“宽带配置”的宽带上网账号设置。可以看到初始的设置栏为灰色不能设置。5、在空白处右键，
电脑xp是什么意思
一般来说，网络上xp是指的电脑xp系统，也就是Windows XP，其中xp来源于Experience，是体验的意思，关于Windows XP需要了解的是，Windows XP是在2001年问世的，而且是在Windows 2000基础上开发
电脑怎么重装系统或一键还原系统？
不需要光盘，u盘装系统，轻松5步一键还原系统，可将您的操作系统恢复到初始状态（只是恢复系统盘，不会对其他磁盘进行操作）。第一步：打开“金山卫士3.0”，选择“重装系统”，进入系统重装界面，第一次使用重装功能，需要认真阅读重装系统用户许可协议
ui设计师用什么电脑比较好
如果预算可以的话，UI设计首选是苹果电脑，主要原因是Sketch等UI设计软件是苹果IOS系统独享的，而且苹果屏幕色彩还原度高。虽然现在figma可以解决页面设计（可以win系统使用），也很好用。但是，像principle和flinto之类
电脑回收前需要怎么处理
在把旧电脑回收处理掉之前，一定先要做好硬盘的处理工作。把硬盘拆下来，可以继续使用，确定不再使用，把硬盘拆开，破坏掉盘片，免得数据泄露。将储存的文件删除，浏览记录清空，也将账号信息删除，做好最基本的防范工作。然后，下载一些杂七杂八、无关紧要
如何在电脑上用模拟器玩手机游戏
在电脑上用模拟器玩手机游戏的方法操作：1、打开电脑（台式、笔记本电脑均可）。在百度搜索“逍遥安卓模拟器”逍遥安卓模拟器是经过360、金山毒霸等杀毒软件验证的绿色无毒软件，可以放心下载。2、打开逍遥安卓模拟器的官网。点击下载，安装好软件即可
烦劳给我个,QQ三国怎么绑定电脑,感谢你哦
三国登录手机绑定-电脑绑定齐亮相啰!更安全，更随意，请大家快来体验QQ三国登录绑定的安全畅快感吧!绑定设置页面&gt&gt请点击进入继QQ三国密保卡登录绑定以来，QQ三国再出保护玩家游戏安全的法宝：手机绑定游戏登录及电脑绑定
电脑主机如何接到电视上？
液晶电视连接电脑主机当做显示器，一般应使用VGA线或HDMI线来连接。1、液晶电视背面接口示意图：可见左侧HDMI接口与右侧VGA接口均具备。2、电脑主机背面显示输出接口示意图：左侧黄框内为HDMI接口，右侧黄框内为VGA接口。3、HDM
为什么做设计都喜欢用苹果电脑
因为专业、性能可靠、运行稳定，不会耽误设计者的工作，所以营业性的设计都喜欢用苹果电脑。因为苹果电脑的性能较家用PC强劲针对苹果电脑的病毒、木马、游戏、病毒都比较少用起来比较稳妥稳定！主要原因有以下几个方面：1、笔记本做工不错，轻巧设计独到。

推荐阅读

热门文章

最新发布

标签列表

Python利器：如何处理PDF表格数据

给您推荐相同类型的内容：