(源码分享)利用Python识别提取图像文字（中文英文都可以）

2023-02-25 13:06:02Python018

(源码分享)利用Python识别提取图像文字（中文英文都可以）,第1张

你想了解怎么利用程序自动识别网站验证码吗？识别提取图像文字（中文英文都可以）

分享一点简单有用的小项目：python

源码分享如下：

看视频教程链接：（点击识别图像文字视频教程链接）

一、首先需要安装 Tesseract模块及 语言包

Tesseract OCR光学字符识别

Windows系统：

安装网站（放在不需要权限的纯英文路径下）：

： https://digi.bib.uni-mannheim.de/tesseract/

可以下载一些语言包：

https://github.com/tesseract-ocr/

安装完成后，如果想要在命令行中使用Tesseract，那么应该设置环境变量。

还有一个环境变量需要设置的是，要把训练的数据文件路径也放到环境变量中。

在环境变量中，添加一个TESSDATA_PREFIX=C:path_to_tesseractdata eseractdata。

在Python代码中操作tesseract。需要安装一个库，叫做pytesseract。通过pip的方式即可安装：

pip install pytesseract

并且，需要读取图片，需要借助一个第三方库叫做PIL。通过pip list看下是否安装。如果没有安装，通过pip的方式安装：

pip install PIL

使用pytesseract将图片上的文字转换为文本文字的示例代码如下：

法一：

isinstance(s, str) 用来判断是否为一般字符串

isinstance(s, unicode) 用来判断是否为unicode

或

if type(str).__name__!="unicode":

str=unicode(str,"utf-8")

else:

pass

法二：

Python chardet 字符编码判断

使用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页，有的页面使用GBK/GB2312，有的使用UTF8，如果你需要去爬一些页面，知道网页编码很重要的，虽然HTML页面有charset标签，但是有些时候是不对的。那么chardet就能帮我们大忙了。

chardet实例

>>>import urllib

>>>rawdata = urllib.urlopen('http://www.google.cn/').read()

>>>import chardet

>>>chardet.detect(rawdata)

{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}

>>>chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典，有2个元数，一个是检测的可信度，另外一个就是检测到的编码。

chardet 安装

下载chardet后，解压chardet压缩包，直接将chardet文件夹放在应用程序目录下，就可以使用import chardet开始使用chardet了。

或者使用setup.py安装文件，将chardet拷贝到Python系统目录下，这样所有的python程序只要用import chardet就可以了。

有的文字英文环境变量中文

# 上一篇：C语言中的位运算符有哪些？

# 下一篇：C语言中什么是按位或运算

给您推荐相同类型的内容：

python安装依赖库
先查看pip3指向的python版本pip3 -V如果不是python3，可以使用以下命令安装依赖python3 -m pip install pycryptodome同理，python2安装依赖库也可以使用python2
C语言中什么是按位或运算
位运算是在二进制层面上进行的运算位或就是在两个二进制上进行按位的或运算像普通的逻辑运算一样两个里有一个为真就返回真（逻辑真就是1 逻辑假就是0）比如两个十进制数 5 和 3 进行位或运算把他们转换为二进制5的二进制是 01013的二进制
怎么吧go程序打包成可运行的EXE文件
你在编译器里面build一下，然后去bindebug目录下找.exeexe就是可执行文件了。运行的时候可能需要用到debug目录下的其他文件(如配置文件、dll等)，所以需要把debug下的所有文件都放到一起。1.最简单的方法：publ
c语言程序设计(何钦铭颜晖第三版)课后习题答案
习题 11.1 填空题1．函数2．主函数main()；主函数main()3．主函数main()4．函数首部；函数体5．{；}6．顺序结构；选择结构；循环结构7．.c；.obj；.exe1.2 思考题1．答：结构
全链路压测流量模型
现在全链路越来越火，各大厂商也纷纷推出了自己的全链路压测测试方案。特别是针对全链路压测流量模型，各家方案都有所不同。最近我看了一些这方面的资料，有一些感悟。分享给大家。全链路压测流量模型的梳理呢，这里就先不讲了，各家公司自有司情在。因
php和go语言哪个好
前言最近工作中遇到的一个场景，php项目中需要使用一个第三方的功能，而恰好有一个用Golang写好的类库。那么问题就来了，要如何实现不同语言之间的通信呢？下面就来一起看看吧。常规的方案1、用Golang写一个httpTCP服务，php通
java能开发视频聊天吗
肯定的说：能！大致的说一下原理：首先你要学习一下java的网络编程方面的东西，像TCPIPUDP协议等等的东西，因为要编写视频聊天程序，这些理论性的东西是必须的。现在假设你已经可以编写出简单功能的网络聊天功能的软件了，想在就是要用你编
c语言程序设计(何钦铭颜晖第三版)课后习题答案
习题 11.1 填空题1．函数2．主函数main()；主函数main()3．主函数main()4．函数首部；函数体5．{；}6．顺序结构；选择结构；循环结构7．.c；.obj；.exe1.2 思考题1．答：结构
编程语言中“Java”与“Javascript”有什么区别？
区别如下：x0dx0a一、javascript与Java是由不同的公司开发的不同产品。javascript是Netscape公司的产品，其目的是为了扩展Netscape Navigator功能,而开发的一种可以嵌入Web页面中的基于对象
国内最好的Java培训机构有哪些？
国内现在的java培训机构有千锋教育、IT培训网、中软国际教育集团、课工场、开课吧等等，这些都是知名的品牌。千锋教育就有线上免费Java线上公开课。随着IT行业特别是Java行业的迅速发展，企业对于技术人才Java程序员的需求量与日俱增。但
go语言在idear怎么进行多个文件的链接
1、解压压缩包到go工作目录，如解压到E:opensourcegogo，解压后的目录结构如下：E:opensourcegogo├─api├─bin│├─go.exe│├─godoc.exe│└─gofmt.exe├─doc├─i
go语言怎样处理 map 的值
先声明mapvar m1 map[string]string 再使用make函数创建一个非nil的map，nil map不能赋值m1 = make(map[string]string) 最后给已声明的map赋值m1["
学习JAVA要安装什么软件？
你可以分为运行环境和IDE两部分运行环境：jdk没得选，必装，现在最新版本jdk8.20其他运行环境要看你做什么开发了，Android开发装个Genymotion虚拟机，J2EE开发装个Tomcat服务器IDE：推荐eclipse，只要是j
在达内学习JAVA怎么样
【达内教育】拥有Java企业级应用9大课程优势，培养学员全栈技术能力。达内教育【java课程】在学习过程中，帮助学员掌握行业java热点技术，提高对java技术点的熟练度。通过大项目贯穿，完成根据业务去实现系统功能，使学员积累企业需要的ja
go语言中实现切片(slice)的三种方式
定义一个切片，然后让切片去引用一个已经创建好的数组。基本语法如下：索引1：切片引用的起始元素位索引2：切片只引用该元素位之前的元素例程如下：在该方法中，我们未指定容量cap，这里的值为5是系统定义的。在方法一
golang编译dll给C#调用
最近需要用到golang编译dll给C#调用，记录一下，希望可以给遇到的朋友一些帮助。开发环境： 1.windows7,VS2019,VScode 2.macOS,VScode 习惯在macos开发golang应用，先写好
Python模拟发送QQ图片变黑色
因为图片的通透度设置错误。mask在A上的中央是255全通透，他破坏了我们的150不通透，得到了全黑的显示。这里的通透应该与原图A通道相同，否则会破坏A通道通透度。python在生活中可以实现提醒任务的功能，也可定时给好友、群、讨论组发送q
C语言的scanf语句格式
scanf语句的一般格式如下：scanf("格式字符串",地址，…)scanf语句用"格式字符串"控制键盘读入的方式。"格式字符串"中一般只包括格式说明符，它们与printf语句中
R语言数据框分类求最大值
使用data.frame函数就可以初始化一个Data Frame。比如我们要初始化一个student的Data Frame其中包含ID和Name还有Gender以及Birthdate，那么代码为：student&lt-data.fr
Java多线程编程
作者 natrium 一理解多线程多线程是这样一种机制它允许在程序中并发执行多个指令流每个指令流都称为一个线程彼此间互相独立线程又称为轻量级进程它和进程一样拥有独立的执行控制由操作系统负责调度区别在于线程没有独立的存储空
python 进行web 开发怎么配置环境
Python 的目前有两个版本，Python 2.7.5 和 Python 3.3.2。Python 3.x 与 2.x 不仅仅是版本的新旧的区别那么简单，Python3.x 是一个全新的东西。1、下面的 Python 2.7.5 这个版
r语言要学多久
r语言要学五至十个月。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。R是自由软件。这意味着它是完全免费，开放源代码的。可以在它的网站及其镜像中下载
java安装错误代码1603
可能原因：可能是因为你的电脑本身是32位的，但是你更新的java是64位的，造成安装失败。如果安装过程中内存不足，也会出现类似的情况。java的安装路径中有中文，造成安装失败。解决方法：将安装系统换成32位。清理内存，腾出空间。换一
如何把python编译成exe文件
我的是这个文件 py2exe-0.6.9.win32-py2.6.exe 你自己找，找到对应你python的版本安装。安装之后打开解释器输入&gt&gt&gtimport py2exe&gt&gt&a
Go语言文件操作
本文主要介绍了Go语言中文件读写的相关操作。文件是什么？计算机中的文件是存储在外部介质（通常是磁盘）上的数据集合，文件分为文本文件和二进制文件。os.Open() 函数能够打开一个文件，返回一个 *File 和一个 er
Ruby Rose的个人经历
鲁比·洛斯 (Ruby Rose) 全名Ruby Rose Langenheim，是澳大利亚MTV音乐电视台主持人、电台DJ、模特，更是少数公开出柜的明星之一。鲁比·洛斯 (Ruby Rose) 是那种可以冷艳性感也可以中性帅气的美女，她的
C语言中如何对齐输出
printf ("编号t数量t价格t名称dun")用t隔开输入的信息名称，在输入的时候，每输入一个数就tab一下，就可以对齐了。换码符't',表示水平制表位（horizontal ta
C语言中如何对齐输出
printf ("编号t数量t价格t名称dun")用t隔开输入的信息名称，在输入的时候，每输入一个数就tab一下，就可以对齐了。换码符't',表示水平制表位（horizontal ta
Java 与Ruby on Rails对接
Ruby 和rail 回归框架Ruby和 rail是非常简洁的很容易很丰富我无法避免的连续看到以及听到以上这样的说法比如说 Bill Walton 写的Rail回顾上关于Ruby的文章提到如果我告诉你当你使用Rail开发一个
如何用Python进行线性回归以及误差分析
如何用Python进行线性回归以及误差分析　如果你想要重命名，只需要按下：CTRL-b状态条将会改变，这时你将可以重命名当前的窗口一旦在一个会话中创建多个窗口，我们需要在这些窗口间移动的办法。窗口像数组一样组织在一起，从0开始用数字标记每个

推荐阅读

热门文章

最新发布

标签列表

(源码分享)利用Python识别提取图像文字（中文英文都可以）

给您推荐相同类型的内容：