安装百度飞桨OCR库

Python030

安装百度飞桨OCR库,第1张

在安装部署过程中,github上的部署流程太简略了,越高越迷糊,这两篇文章帮了大忙。

https://blog.csdn.net/CHYabc123456hh/article/details/107830505

https://blog.csdn.net/CHYabc123456hh/article/details/107844769

先安装docker,拉取镜像,启动docker,配置好环境,照着文档安装好模块就可以使用了。

中间犯了个低级错误,在uninstall时,把deploy/hubserving/ 路径也给带上了,导致其实没有uninstall成功,再次安装时就报version 变量未定义,因此还看了install、uninstall的源码,绕了一大圈,浪费了很多时间。

推荐使用现有的ocr库,没必要自己造轮子。现有的有三个库都可以用来识别,也都是基于Tesseract的一个封装。

pyocr:Tesseract 和 Cuneiform 的一个封装(wrapper)。

pytesseract:Google Tesseract OCR 的另一个封装(wrapper)。

python-tesseract - Google Tesseract OCR 的一个包装类。

1.安装tesseract

2.安装PyOCR

3.安装Wand和PIL

在我们开始之前,还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。

我们需要使用它来将PDF文件转换成图像

我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。

5.开始

现在我们需要获得OCR库(在本例中,即tesseract)的句柄以及我们在PyOCR中将使用的语言

我们使用tool.get_available_languages里的第二种语言,因为之前我曾尝试过,第二种语言就是英语。

接着,我们需要建立两个列表,用于存储我们的图像和最终的文本。

下一步,我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧!

注意:将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。

wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象,并把它们加入到req_image序列中去。

现在,我们仅仅需要在图像对象上运行OCR即可,非常简单:

现在,所有识别出的文本已经加到了final_text序列中了。你可以任意地使用它。以上就是利用Python对PDF文件做OCR识别的全部内容,希望这个教程能够帮助到你们!