(源码分享)利用Python识别提取图像文字（中文英文都可以）

2023-02-25 11:15:01Python024

(源码分享)利用Python识别提取图像文字（中文英文都可以）,第1张

你想了解怎么利用程序自动识别网站验证码吗？识别提取图像文字（中文英文都可以）

分享一点简单有用的小项目：python

源码分享如下：

看视频教程链接：（点击识别图像文字视频教程链接）

一、首先需要安装 Tesseract模块及 语言包

Tesseract OCR光学字符识别

Windows系统：

安装网站（放在不需要权限的纯英文路径下）：

： https://digi.bib.uni-mannheim.de/tesseract/

可以下载一些语言包：

https://github.com/tesseract-ocr/

安装完成后，如果想要在命令行中使用Tesseract，那么应该设置环境变量。

还有一个环境变量需要设置的是，要把训练的数据文件路径也放到环境变量中。

在环境变量中，添加一个TESSDATA_PREFIX=C:path_to_tesseractdata eseractdata。

在Python代码中操作tesseract。需要安装一个库，叫做pytesseract。通过pip的方式即可安装：

pip install pytesseract

并且，需要读取图片，需要借助一个第三方库叫做PIL。通过pip list看下是否安装。如果没有安装，通过pip的方式安装：

pip install PIL

使用pytesseract将图片上的文字转换为文本文字的示例代码如下：

Python re正则匹配中文，其实非常简单，把中文的unicode字符串转换成utf-8格式就可以了，然后可以在re中随意调用

unicode中中文的编码为/u4e00-/u9fa5，因此正则表达式u”[\u4e00-\u9fa5]+”可以表示一个或者多个中文字符

>>>import re

>>>s='中文：123456aa哈哈哈bbcc'.decode('utf8')

>>>s

u'\u4e2d\u6587\uff1a123456aa\u54c8\u54c8\u54c8bbcc'

>>>print s

中文：123456aa哈哈哈bbcc

>>>re.match(u"[\u4e00-\u9fa5]+",s)

<_sre.SRE_Match object at 0xb77742c0>

>>>pat='中文'.decode("utf8")

>>>re.search(pat,s)

<_sre.SRE_Match object at 0x16a16df0>

>>>newpat='这里是中文内容'.decode("utf8")

>>>news=re.sub(pat,newpat,s)

>>>print news

这里是中文内容：123456aa哈哈哈bbcc

from:http://blog.aizhet.com/web/12078.html

中文文字英文环境变量图像

# 上一篇：R语言ggtree画圆形的树状图展示聚类分析的结果

# 下一篇：在JAVA中什么是递归？有什么用？

给您推荐相同类型的内容：

R下载dose本地包怎么下
从R语言官网，下载package。网上好多解决方案都是基于R gui的，但现实中使用Rstudio这个IDE会更多些。接下来以gmm包在Rstudio下安装为例：教程使用bing搜索该包，找到相应网站[1]。关键词：R包名称+R，或者可以
mac安装python3及如何切换版本
1、安装更新 brew 2、安装py3 3.此时python -v还是2.7的版本没有新建文件命令： 5.在 .bashrc文件中添加配置信息分别为python2和python3的路径；以下是我自己的路径使用whi
java单链表遍历，最后会输出一个0，这个零是什么，头指针的引用吗
单链表带头结点的遍历，如果把temp!=null改成temp.next!=null遍历就正常了，但是去掉.next就会多出一个0。这个0是一个未经初始化的内存中“残存”的数字，这一次是零，可能在，下一次运行的时候，里面出现的数字就可能不是0
7 Go密码学（四）非对称加密之RSA
对称加密有非常好的安全性，其加解密计算的性能也较高，但其有两个重要缺点：在如今开放的信息社会，秘钥的管理愈加困难，非公开的秘钥机制虽然破解较难，但还是有遭到攻击的可能性，由于对称加密需要加解密双方共同握有私钥，所有生成秘钥的一方必须分
ruby在win下面执行cmd中的操作的时候通常用什么方法
在windows下启动JBoss服务器，需要在命令行中输入run.bat。但是运行后如果你想停止服务器，可能的做法就是直接按Ctrl+C键强行终止服务器，显然这种方式是不友好的。另一种方法就是再开一个cmd窗口，进入Jboss的bin目录，
Python爬虫实战（1）requests爬取豆瓣电影TOP250
爬取时间：20201125 系统环境：Windows 10 所用工具：Jupyter NotebookPython 3.0 涉及的库：requestslxmlpandasmatplotlibnumpy蛋肥
c语言中空格怎么表示？
需要准备的材料分别有：电脑、C语言编译器。1、首先，打开C语言编译器，新建一个初始.cpp文件，例如：test.cpp。2、在test.cpp文件中，输入C语言代码：char a = ' 'printf("%
怎么给代码加注释？
CC++C#行注释：这里是注释块注释：*这里是注释*Java行注释：这里是注释块注释：*这里是注释*HTML块注释：&lt!--这里是注释--&gtCSS块注释：*这里是注释*Ja
GO语言商业案例（六）：PayPal
创建 PayPal 的目的是使金融服务民主化，并使个人和企业能够加入并在全球经济中蓬勃发展。这项工作的核心是 PayPal 的支付平台，该平台使用专有技术和第三方技术的组合来高效、安全地促进全球数百万商家和消费者之间的交易。随着支付平台变得
汇编中的ES是什么意思???
ES寄存器附加段寄存器：定义附加段的起始地址。程序中其他段得起始地址。用于某些串操作中和DI寄存器相关联 (ES)+(DI)=串地址的结尾例子：* * * * * * * * * * * * * * * * * * * * *
golang短连接导致cpu高
复杂的组合。golang短连接导致cpu高，使用golang进行复杂的组合运算，导致CPU占用率非常高。CPU指中央处理器，中央处理器作为计算机系统的运算和控制核心，是信息处理、程序运行的最终执行单元。此篇文章流传甚广, 其实里面没啥干货，
生存分析R语言绘图——ggsuvplot介绍及实例
ggsurvplot( fit,#生存分析结果 data = NULL, #a dataset used to fit survival curves fun = NULL, # 定义生存曲线转换的任意函数。经常使用的转换
请问如何用RGSS脚本编游戏？
日本的游戏制作软件Rpg Maker XP所使用的内部脚本系统，是ruby的一种扩展. RGSS编辑器RGSS（Ruby Game Scripting System），中文意思是 Ruby 游戏脚本系统，是应用面向对象的脚本语言 Ruby
chateau de villenouvette2005多少钱? BURMESTER RUBY多少钱都是750毫升的
第一个庄，国内称作维路云特，是法国南部一个比较一般产区的AOC。2008年份国外售价7欧元左右，2005年份作为订好年份，价格大概在10欧元以下，国内售价大概在150-180左右。不具备很好的陈年实力，所以05年的还是趁早喝了比较好。第二个
Java的学习内容都有哪些？小白能学会吗？想转行做软件开发了
下面给大家分享2021最新的Java开发学习路线，拿走不谢~第一阶段：Java 专业基础课程阶段目标：1.熟练掌握 Java 的开发环境与编程核心知识2. 熟练运用 Java 面向对象知识进行程序开发3. 对 Java 的核心对
go语言可以做什么
1、服务器编程：以前你如果使用C或者C++做的那些事情，用Go来做很合适，例如处理日志、数据打包、虚拟机处理、文件系统等。2、分布式系统、数据库代理器、中间件：例如Etcd。3、网络编程：这一块目前应用最广，包括Web应用、API应用、
能推荐一下5000左右性价比高的笔记本？
推荐华硕顽石六代 FL8700，可选配第8代英特尔® 酷睿™ i7 处理器，可选配最高可支持 16GB 2400MHz 内存，并可选配新一代高性能NVIDIA® GeForce® MX110 MX230 独立显示芯片，速度更胜以往
C语言中_at_的用法
不是通用的C语言。Cx51支持_at_.手册上有例子：structlink{structlinkidata*nextcharcode*test}下面4行给了地址，主程序里赋值。structlinkidatalist_at_0x40*l
英文动画推荐02:Max & Ruby（2-8岁）
2012年3月6日（女儿不到2岁）记录：上次介绍了适合英语启蒙的动画Peppa Pig，这次再介绍一部同样适合启蒙的英文动画片Max &amp Ruby。可以说，这两部动画奠定了女儿英文听说的基础。这是一部基于Rosemary We
学java什么时候工作最好找？
现在就业季有一句话“金三银四铜五”，所以春天的时候工作最好找。千锋教育就有线上免费Java线上公开课。不管我们是什么层次的人。春节前找工作，有很多人过了春节就不来了，或者换工作。很多企业在年前会出现空岗，如果没有年终奖跟着，离职的比例会更
java命名空间存放在哪里
Java命名空间存放在Java虚拟机(JVM)中。Java虚拟机是一个虚拟环境，它能够在一台计算机上运行多个Java应用程序。它创建了一个独立的空间，用于存放Java类文件和其他数据，以便它们可以被正确的加载和执行。每个Java类都有一个唯
python 正则转义
# encoding: UTF-8 import re # 将正则表达式编译成Pattern对象 pattern = re.compile(r'python.org') # 使用search()查找匹配的子串，不存
在C语言里printf是什么意思？怎么用?
1，printf()函数是格式化输出函数, 一般用于向标准输出设备按规定格式输出信息。x0dx0a2，printf()函数的调用格式为: printf("", )。x0dx0a3，格式输出，它是c语言中产生格式化
标准误用r语言怎么算
方法如下：设样本量为 n，假定为 30 , R 里面提供了 var 函数来求样本方差var 函数的定义是：但样本方差的定义是 n &lt- 30x &lt- rnorm(30)# 样本标准差为print(var(x
中软国际外包java面试多久出结果
3到7个工作日。中软国际有限公司是国内第一家专注于电子政务领域的IT服务商，而且是超大型的互联网行业外包服务公司，业务范围是综合性软件与信息服务。Java是一门面向对象的编程语言，不仅吸收了C++语言的各种优点，还摒弃了C++里难以理解的多
规则引擎
规则引擎drools的rete算法实现原理和事实匹配过程https:cloud.tencent.comdeveloperarticle1477434随笔分类 - 策略算法和规则引擎https:www.cnblogs.c
求助，写一个python代码，用于简单的复盘统计
下面是一个简单的 Python 代码，用于统计复盘：运行代码后，它将持续询问用户输入比赛的结果，直到输入“q”。它将统计每个结果的数量，并最终打印结果。def get_file_code_lines(path):file = open(pa
hbogo有中文吗
hbogo没有中文。拓展资料：着重说说体验过的几大流媒体平台。NetflixNetflix目前全球发展，华语影剧集比较多，有简繁中字，港片也普遍有国粤双语，体验最好。具体来说选新加坡区港区台区都可，大部分没差别，新加坡片库数最多。HBOHB
北大青鸟设计培训：Java项目开发需要考虑的注意事项？
在学习Java开发的时候，学习的过程中主要包含基础知识学习和实践操作学习，一般情况下会根据实际情况进行项目实践，但是很多人在参加项目开发的时候会发现很多问题是之前没有接触过的，不知道在开发的时候应该注意什么？下面电脑培训为大家介绍Java项
mac rubywoo色号是多少
它的色号就是RUBY WOO，颜色是雾面正红色。这个系列其它色号还有BRONX、RUNWAY HIT、DANGEROUS、RUBY WOO、ALL FIRED UP、RELENTLESSLY RED、STEADY GOING、FLAT

推荐阅读

热门文章

最新发布

标签列表

(源码分享)利用Python识别提取图像文字（中文英文都可以）

给您推荐相同类型的内容：