如何利用Python对PDF文件做OCR识别

2023-03-04 18:06:01Python011

如何利用Python对PDF文件做OCR识别,第1张

1.安装tesseract

2.安装PyOCR

3.安装Wand和PIL

在我们开始之前，还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。

我们需要使用它来将PDF文件转换成图像：

我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。

5.开始

现在我们需要获得OCR库（在本例中，即tesseract）的句柄以及我们在PyOCR中将使用的语言：

我们使用tool.get_available_languages里的第二种语言，因为之前我曾尝试过，第二种语言就是英语。

接着，我们需要建立两个列表，用于存储我们的图像和最终的文本。

下一步，我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧！

注意：将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。

wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象，并把它们加入到req_image序列中去。

现在，我们仅仅需要在图像对象上运行OCR即可，非常简单：

现在，所有识别出的文本已经加到了final_text序列中了。你可以任意地使用它。以上就是利用Python对PDF文件做OCR识别的全部内容，希望这个教程能够帮助到你们！

一、原理

1、将PDF文档每页转换为图像

2、调用百度通用文本识别页面接口，对图像进行内容识别

3、对图像内容进行对比，并将对比不一致的内容在文档图像上进行标记（红框）

4、将对比结果表格输出为html，以便进行识别

二、范围和限制

1、目前仅支持PDF文档之间的对比

2、无法识别图形（盖章和logo）、不清晰字迹

3、需要联网使用（OCR使用的是百度通用文本识别接口，仅限测试使用，暂不限次数）

4、对比存在误差（原因为百度OCR识别无法达到100%准确）

三、安装库

pip install pymupdf

pip install requests

四、参数

originPDF: PDF文档原件路径

contrastPDF: PDF文档扫描件路径

resultRoot: 输出结果路径（提示：程序运行后会清空该目录，请不要直接设置桌面）

输出 : 标注差异的文档图像、Html文档

五、源码

六、执行结果示例：

图像文档对比路径文本

# 上一篇：电脑死机怎么办呢（按什么键恢复啊）

# 下一篇：js开头是什么快递

给您推荐相同类型的内容：

Golang数据结构与算法全能战士
今天给大家推荐是由Social Explorer团队开源的gods框架，自称"上帝"，听这个名字就很霸气,正确的解释是GoDS(Go Data Structures)，是数据结构与算法相关的框架。全能战士，该框架覆
js开头是什么快递
JS急速国际快递急速快递总部设立于香港，在150多个国家设立分支机构，是专业的国际快递行家。公司自2006年成立以来，以专业、真诚、服务客户的管理理念；优质高效的服务水平，赢得了市场。公司主要经营国际快递，国际航空小包，港澳台专线，日韩专
竖着拿手机拍照,但放到电脑上照片总是横着的.究竟什么问题
竖着拿手机拍照,但放到电脑上照片总是横着的，此情况属于正常现象。建议携带上购机发票，当竖屏拍照时，重启手机。纵向持手机时拍摄的照片为竖屏的，若无效，备份手机中数据。建议切换自带相机软件拍照观察，即横向持手机时照片为横屏的，将手机恢复出厂设置
c语言类型所占字节数
类型常见的有char、int、long、short、float、double及指针等.字符类型这里单只char，char变量在内存中存储的是字符对应的ASCII码值。所以长度也是固定的，为1个字节。整数类型查了资料发现对各个类型的整数占用字
CSS实现带箭头方框怎么控制箭头位置！
你可以做一个带箭头的div；然后样式如下：div{* 箭头的样式，你自己设计，下面是旋转的样式*transform:rotate(90deg)-ms-transform:rotate(90deg)* Internet Explorer
表格怎么让文字居中?
在Word里面做表格如何将文字上下居中方法：打开WORD文档，选中需要设置的表格，右键---单元格对齐方式--水平居中即可。word2013 怎么使表格中的文字上下居中参照图片中即可。另：1、全选表格；2、表格工具栏
《JAVA2实用教程》pdf下载在线阅读，求百度网盘云资源
《JAVA2实用教程》（张跃平）电子书网盘下载免费在线阅读资源链接：链接：https:pan.baidu.coms1rFuwM9MyTd_OdnNd3U_vxQ提取码：duoj书名：JAVA2实用教程作者：张跃平出版社：清华
请教python3如何打印中文
python3中用的是Unicode编码，Unicode号称万国码，可以向所有的编码进行兼容。在Python3中不会出现中文打印不了的情况，除非是文件本身编码出了问题。所以直接print("内容")应该就可以了。解决py
如何将golangbyte转换为字符串
func BytesToString(bs []byte) string {l := len(bs)buf := make([]string, 0, l)for i := 0i &ltli++ {buf = appendString
html分页添加信息
可使用占位符从数据集中的字段导入HTML以在分页报表中使用。可使用占位符从数据集中的字段导入HTML以在分页报表中使用。默认情况下，占位符表示纯文本，因此需要将占位符的标记类型改为HTML。分页是指在web页面有大量数据需要显示时，当一页的
杀破狼原唱
《杀破狼》原唱：JS。《杀破狼》是JS演唱的一首歌曲，是电视剧《仙剑奇侠传》的片头曲。这首歌曲由陈忠义作词、作曲，收录在2005年发行的《仙剑奇侠传电视剧原声带》中。JS简介JS（Justin&ampSophia），中国流行乐
笔记本电脑怎么连接电视？
笔记本连接电视当做显示器：如下。1、只需要用HDMI视频线，将电视与笔记本相连接；注意在连接的时候两者都需要先关闭。2、打开笔记本和电视，使用遥控器将电视调整到HDMI输入模式，一般在笔记本的【显卡控制面板】或者是在【设置】-【显示】选项中
基础知识 - Golang 中的格式化输入输出
【格式化输出】格式化输出：将 arg 列表中的 arg 转换为字符串输出使用动词 v 格式化 arg 列表，非字符串元素之间添加空格 Print(arg列表)使用动词 v 格式化 arg 列表，所有
在html语言中<dd><dd>是什么意思
&ltdd&gt标签用来在描述列表里对术语或名字进行描述.&ltdd&gt标签和&ltdl&gt标签(定义描述列表)和&ltdt&gt标签(定义描述项或名字)结合使用.在&
2022微信朋友圈英文唯美文案大全(精选52句)
微信朋友圈英文唯美文案大全1、I don't want to be the first one. I want to be the only one.我不想做第一个，我只想做唯一。2、I never consider ea
golang函数返回值是结构体值的时候，为何不能对成员赋值呢？
1，右值不可赋值2，函数返回的是右值getTest()是右值，结构体整体都是右值，右值不可赋值getTestPoint()返回当然也是右值，但只有指针是右值，即你不能给返回的指针赋值（例如：getTestPoint() = nil），但是可
go语言一个主package包引入同级目录下go文件包编译出错！！
go语言一个主package包引入同级目录下go文件包编译出错是设置错误造成的，解决方法为：1、先使用import "strings"导入strings库。2、HasPrefix 判断字符串 s 是否以 prefix
怎样测试电脑电源功率？
解决怎样测试电脑电源功率的步骤如下：1.到鲁大师的官网，下载最新版本的硬件检测软件。2.装好后，打开软件。点硬件检测。3.点击箭头所指的功耗估算。4.点击最后的功耗估算→这里还有两项为未知项，需要用户予以确认。5.根据自己电脑的实际情况选
笔记本电池续航能力迅速下降是什么原因？
原因：电池在重复充电和放电过程中，笔记本BIOS系统对电池电量产生了误判，电池还有一定电量，BIOS错误地认为电量已耗尽，让笔记本电脑强行关机。笔记本电脑电池使用注意事项：锂电池不需要用到没电再充电。前几次充电不需要充够12小时。充电充满
javascript中黑点表示什么
javascript中黑点表示鼠标的位置。这篇文章主要介绍了JavaScript实现的鼠标跟随特效,结合2则实例形式分析了javascript针对鼠标事件的响应、计算、处理及页面元素动态操作相关实现技巧。根据鼠标的移动而移动，并在鼠标周围随
css3是否可以对元素单边加阴影
可以.用阴影扩展半径.扩展阴影半径一般设置为和糊模半径大小相同，并取其负值。box-shadow: 0 10px 10px -10px #cccbox-shadow属性至多有6个参数设置，他们分别取值：阴影类型：此参数是一个可选值，如果不设
用C语言编写一个程序：定义一个点的坐标，然后定义两个点，求这两个点间的距离。
#include &ltstdio.h&gt#include &ltmath.h&gtstruct Point{ double x, y}** Calculate the distance of tw
QQ三国JS1—80级技能（全部最好详细点）
横剑击 0 剑侍自身拥有的剑系初级招式，有一定的杀伤力且无消耗。出生自带技能技能威力：8 体力消耗：0 受众数量：敌方单体攻击距离：75 持续效果：无饮血剑舞 1 攻击力比横剑击略强，且带有附加伤害。饮血剑舞秘籍技能威力：
JAVA语言怎么给STM32编程，或者怎么给51编程
嵌入式只支持CC++语言，其它语言是无法对STM32进行编程的。如果你熟悉C#或者是VB.NET的话，那还可以通过 Microsoft .NET Micro Framework来对STM32进行编程的stm32的话其实就可以了，51不学你
IE9以下浏览器对CSS3的常用兼容处理
html5shiv：解决ie9以下浏览器对html5新增标签的不识别，并导致CSS不起作用的问题。 respond.min:让不支持css3 Media Query的浏览器包括IE6-IE8等其他浏览器支持查询。官方网站： htt
html和js分离，js中的document.write
以上代码不应出现你所说的情况,除非你将document.write("sss")语句放到window.onload绑定的函数中.在document对象未close之前,write方法可以将输出追加到文档,一但文档关闭,再
Go lang制作一个简单的区块链
区块链是一种数据存储的结构，通过GO语言可以方便的创建一个区块链直接上代码1：区块接口和方法 2：创建区块链类和方法最后测试方法：测试结果： PS F:goblock&gtgo run
Java给ceb文件添加水印
通过设置页面，点击添加水印即可通过设置页面，点击添加水印就可以，或则到“控制面板”-“打印机和传真”里面，把“adobe PDF”打印机改名为“PDF”，就可以打印成pdf了。一般下载时能在线打开，我以前做过pdf的，貌似是本地软件支持的
GO语言是什么语言？我们应该怎么学？
Go语言是谷歌推出的一种全新的编程语言，可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发Go，是因为过去10多年间软件开发的难度令人沮丧。Go是谷歌2009发布的第二款编程语
我为什么放弃Go语言
有好几次，当我想起来的时候，总是会问自己：我为什么要放弃Go语言？这个决定是正确的吗？是明智和理性的吗？其实我一直在认真思考这个问题。开门见山地说，我当初放弃Go语言（golang），就是因为两个“不爽”：第一，对Go语言本身不爽；第二，对

推荐阅读

热门文章

最新发布

标签列表

如何利用Python对PDF文件做OCR识别

给您推荐相同类型的内容：