如何用python 自己写一个ocr

2023-02-26 17:32:01Python012

如何用python 自己写一个ocr,第1张

推荐使用现有的ocr库，没必要自己造轮子。现有的有三个库都可以用来识别，也都是基于Tesseract的一个封装。

pyocr：Tesseract 和 Cuneiform 的一个封装(wrapper)。

pytesseract：Google Tesseract OCR 的另一个封装(wrapper)。

python-tesseract - Google Tesseract OCR 的一个包装类。

1.安装tesseract

2.安装PyOCR

3.安装Wand和PIL

在我们开始之前，还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。

我们需要使用它来将PDF文件转换成图像：

我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。

5.开始

现在我们需要获得OCR库（在本例中，即tesseract）的句柄以及我们在PyOCR中将使用的语言：

我们使用tool.get_available_languages里的第二种语言，因为之前我曾尝试过，第二种语言就是英语。

接着，我们需要建立两个列表，用于存储我们的图像和最终的文本。

下一步，我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧！

注意：将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。

wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象，并把它们加入到req_image序列中去。

现在，我们仅仅需要在图像对象上运行OCR即可，非常简单：

现在，所有识别出的文本已经加到了final_text序列中了。你可以任意地使用它。以上就是利用Python对PDF文件做OCR识别的全部内容，希望这个教程能够帮助到你们！

图像对象语言现在文件

# 上一篇：c语言多行三列字符串如何循环读写

# 下一篇：sql中update的用法，提示update语法错误

给您推荐相同类型的内容：

java中%1$s什么意思？
被格式化的参数索引%1$s和%2$s分别表示第一位和第二位占位符，$s表示是字符串。Java是一种可以撰写跨平台应用程序的面向对象的程序设计语言。Java 技术具有卓越的通用性、高效性、平台移植性和安全性，广泛应用于PC、数据中心、游戏控制
请问java中的属性是什么意思
属性在其包含的信息和复杂性等方面变化很大，特别是当它们能确定时翻译执行过程的时间。属性的典型例子有：变量的数据类型、表达式的值、存储器中变量的位置、程序的目标代码、数的有效位数。java中常用属性有:1，file.separator :
guess = int(temp),在python是什么意思
int()是强制类型转换的意思，操作方法如下：1、首先在python编辑器中，直接输入【】int()】，会得到0。2、int（）是一个函数，class int(x, base=10)，有两个参数，一个是需要转换的数字或者字符串，第二个是数
JAVA编程解析之classpath的深入理解
现在的JAVA编程是内容最多也是难度最大的程序对于每一个程序员来说对每个知识都要进行深入的理解这也是一个循序渐进的一个过程本文章主要对于classpath作一个深入的解析希望对各位朋友们有所帮助 jvm的类加载分三中方式
学go语言有前（钱）途吗，另外工作国内好找吗
建议分两步走：1、先学习当下的一门主流语言编程，以便你比较容易的找到一份工作；2、golang的发展很快，有些北上广深的软件公司已经开始招聘以go为开发语言的职位；3、go确实是一门优秀的语言，有些特征比较类似于python，java或者C
def是go语言的关键字吗
是的。根据中国知网显示关键字def是用来定义方法即函数，属于应用格式，是关键字。DEF是英文单词Defence防御的简写，在一些电子游戏中代表某个单位的防御力。import "worknamepacketfolder"
韩剧ruby放屁是哪部韩剧
红宝石的爱。韩剧ruby放屁是红宝石的爱这部韩剧。讲述了患有社交恐惧症的女主人公李Ruby偶然获得了“魔法的戒指”的帮助，并成为了珠宝设计师的故事。故事很简单，有些奇幻色彩的励志爱情剧，而且做为行业背景，我颇为怀疑这是珠宝业的大型广告策划。
sql中update的用法，提示update语法错误
将Conn.execute("update DB_yy set check='"&ampsel1(i)&amp"' where id="&ampr_id(i
s语言和r语言有什么区别
一、用法不同1、S语言：S语言用来进行数据探索、统计分析、作图的解释型语言。2、R语言：R是自由软件，是一种可编程的语言。二、开发人员不同1、S语言：语言是由AT&ampT贝尔实验室开发的。2、R语言：后来新西兰奥克兰大学的Robe
java环境变量中%%的作用和path的作用是什么？
%%可以调用windows系统的其它环境变量，使你定义的一旦变量更直观，使用 %变量名%来调用比如你定义了一个环境变量JAVA_HOME=C:javabin作为java的执行目录那么你在其它环境变量里面要用到%JAVA_HOME%来代替
python如何加速下载ZiP文件
想要加速zip文件的下载，就必须要用到python的多线程处理能力，常用的库是 threading。默认情况下，该库Python会默认安装，因此可以直接在代码中导入。下载时根据文件的size，切分成几个线程分别下载文件，下载完成以后再拼接到
为什么在ruby中，[].all?{|i| i==1} 的结果为true？
.all?这是一个ruby方法，他的返回结果只有两个，true或者false，判断的是数组中每一个元素都是true的就返回true，只要有一个不是true就返回false，如[nil,22].all?返回的就是false。还有就是判断数组遍
c合法表达式
B为正解。A.[]符号是数组的标号符，[3,2,1,0]是错的，只能这样写：[3][2][1][0]B.这是一个逗号表达式，其值是最后一个元素0。即int a=(3,2,1,0)赋值后a=0。C.常量之间不能用=号，只能==。如
coach的ruby25怎么样
coach的ruby25好。coach的ruby25采用了经典标志提花织物,惊喜不止于此:大容量设计带有奢华蛇皮革细节,修长拉链的下方配备了方便的大内袋和多功能口袋,提供出色收纳性。都是Mac口红比较热门的色号。chili是小辣椒色，ru
PCA主成分分析_R语言实战
作为零计算机基础，纯生物背景的实验喵，有很多技能还不会，只希望将自己学习到的知识记录下来，一方面让自己能够时常温故知新，一方面与大家分享学习内容和心得，一起进步呀。主成分分析（principle component analysis，
如何在R语言中使用Logistic回归模型
Logistic回归在做风险评估时，一般采用二值逻辑斯蒂回归（Binary Logistic Regression）。以滑坡灾害风险评估为例。1、滑坡发生与否分别用0和1表示（1表示风险发生，0表示风险未发生）；2、确定影响滑坡风险的影响因
java中的引用数据类型是怎样的？
java中有两种数据类型：基本类型和引用类型。x0dx0a基本类型有8个：x0dx0a整数类型 byte、short、int、longx0dx0a浮点数类型 float、doublex0dx0a字符型 charx0dx0
python 第三方库怎么安装
【方法一】: 通过setuptools来安装python模块首先下载 NOTE: 最好下载个setuptools，本人是15.2版本，里面包含了ez_setup运行 python ez_setup.pyD:workinstallatio
a=a+1=3符合c语言语法吗
a=a+1=3不符合c语言语法。根据查询相关公开信息，右值不能自加a+1的结果也是右值，不能将3赋给右值。D也不符合语法，只有整型数才能进行求余运算（%）。B是逗号表达式，相当于(a=3)，5是符合语法的。因为(前有个f，说明这是调用函数f
python 判断变量是否定义
vars（不带参数的形式）和locals这两个内建函数返回一个当前scope内定义的所有局部变量的字典。&gt&gt&gt 'a' in vars() False&gt&gt&am
java中%1$s什么意思？
被格式化的参数索引%1$s和%2$s分别表示第一位和第二位占位符，$s表示是字符串。Java是一种可以撰写跨平台应用程序的面向对象的程序设计语言。Java 技术具有卓越的通用性、高效性、平台移植性和安全性，广泛应用于PC、数据中心、游戏控制
C语言中的与或非运算
C语言中的与、或、非是C语言的逻辑运算符。1、逻辑与在C语言中逻辑与用&amp&amp表示。举例：a&amp&ampb（其中a、b都代表一个条件）如果a和b都为真，则结果为真，如果a和b中有一个条件为
如何用python把pdf转为cad？
1.准备一款专业的CAD转换器，如果你的电脑里有可以直接打开。2.打开运行软件，在软件界面的左侧我们找到“PDF转CAD”功能。3.选择好了转换类型，接下来就是添加文件，添加文件有两个方法，一个是点击界面中的“添加文件”，一个是直接把你的文
求一部电视剧讲两个飞机师与一个空姐之间的爱情故事记的一个飞机师叫云智
这部剧是香港TVB拍摄的《冲上云霄》【在线高清观看（黑豆视频）】：http:hd.tudou.comprogram2280【概述】：《冲上云霄》（英文：Triumph In The Skies），香港无线电视剧集，于2003
作为女孩子，你包里常备的是哪一支口红？
作为女孩子包里面常备一只枫叶色今年很火的迪奥漆光740，很温柔的颜色也很适合秋冬眼影盘，日常我就基本涂这一款多很滋润的膏体，就是因为太润了涂起来少有些难度，黄皮能hold得住的颜色，膏体有香味淡淡的说不出来味道。作为女孩子包里面常备一只枫叶
java 代码解析
设u和v是类A的两个对象——u和v是类A的两个实例？u==v的意思是判断u和v是否是同一个实例。如果返回true，表示u和v是A的同一个实例。如果返回false，表示u和v是A的两个不同实例。这里的java程序运行过程，是指我们编译好代码之
你好请问你一下iou是怎么抓包？
有两种方法。。一种就是把iou2net.pl脚本把端口都桥接到VM里面的一个网卡。然后VM那个网卡在桥接到本机的网卡。。在本机抓VM桥接过来的网卡就可以咯。。还有一种就是直接在linux里面抓包。首先要在linux安装抓包软件。。我就在线装
Go语言编程入门时需要注意什么
刚入门Go语言小白需要注意以下五点：1、注意书写代码的一些规范吧，特别是注意大小写、英文标点符号区别等，在特别的位置写上注释。2、主要是理解伪代码所描述的算法，伪代码要注意是不能直接运行的。3、注意编译器版本与书籍上所介绍版本是否一致，也注
C语言统计单词个数
Q:输入一串字符串，输出其中有多少个单词。 Eg：Good Wishes A：#include &ltstdio.h&gt#include &ltstring.h&gt#define SIZE 20int
Python中冷门但非常好用的内置函数
Python中有许多内置函数,不像print、len那么广为人知,但它们的功能却异常强大,用好了可以大大提高代码效率，同时提升代码的简洁度，增强可阅读性 Counter collections在python官方文档中的解释是High

推荐阅读

热门文章

最新发布

标签列表

如何用python 自己写一个ocr

给您推荐相同类型的内容：