如何利用Python对PDF文件做OCR识别

Python035

如何利用Python对PDF文件做OCR识别,第1张

1.安装tesseract

2.安装PyOCR

3.安装Wand和PIL

在我们开始之前,还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。

我们需要使用它来将PDF文件转换成图像:

我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。

5.开始

现在我们需要获得OCR库(在本例中,即tesseract)的句柄以及我们在PyOCR中将使用的语言:

我们使用tool.get_available_languages里的第二种语言,因为之前我曾尝试过,第二种语言就是英语。

接着,我们需要建立两个列表,用于存储我们的图像和最终的文本。

下一步,我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧!

注意:将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。

wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象,并把它们加入到req_image序列中去。

现在,我们仅仅需要在图像对象上运行OCR即可,非常简单:

现在,所有识别出的文本已经加到了final_text序列中了。你可以任意地使用它。以上就是利用Python对PDF文件做OCR识别的全部内容,希望这个教程能够帮助到你们!

可以用捷速ocr文字识别软件,使用教程:

第一步,我们需要下载捷速OCR文字识别软件,我们可以去官网或者在各大下载网站找到下载。运行软件,选择界面中的“从图片读文件”。或者关掉对话框,直接点击左上角的“读取”也是一样的。

第二步,在出现的查找框里选择需要转换的图片,然后软件界面就会出现该图片的具体情况了。

第三步,我们点击工具栏中的“识别”按钮,就能对图片进行识别了,识别的结果会呈现在图片右边。我们可以进行校对,然后修改错误。

第四步,最后我们工具栏中的“Word”,就会直接输出一个Word文档供我们使用了。或者你也可以直接复制识别结果,也可以达到一样的效果。