python pil 怎么去掉验证码线条

Python011

python pil 怎么去掉验证码线条,第1张

一、验证码识别的概念

机器识别图片主要的三个步骤为消去背景、切割字符、识别字符。而现有的字符验证码也针对这三个方面来设计强壮的验证码。

以下简图帮助大家理解验证码识别的流程: 

二、处理流程

其中最为关键的就是好图像处理这一步了。图像处理功能模块包括图像的灰度化、二值化、离散噪声点的去除、倾斜度校正、字符的切割、图像的归一化等图像处理技术 。

1、 图像的灰度化 

由于 256 色的位图的调色板内容比较复杂,使得图像处理的许多算法都没有办法展开,因此有必要对它进行灰度处理。所谓灰度图像就是图像的每一个像素的 R、G、B 分量的值是相等的。彩色图像的每个像素的 R、G、B 值是不相同的,所以显示出红绿蓝等各种颜色。灰度图像没有这些颜色差异,有的只是亮度上的不同。灰度值大的像素点比较亮(像素值最大为 255,为白色),反之比较暗(像素值最小为 0,为黑色)。图像灰度化有各种不同的算法,比较直接的一种就是给像素的 RGB 值各自一个加权系数,然后求和;同时还要对调色板表项进行相应的处理。

2、 图像的二值化 

要注意的是,最后得到的结果一定要归一到 0-255 之内。因为这是每个字节表示 

图像数据的极限。

3、 去噪 

图像可能在生成、传输或者采集过程中夹带了噪声,去噪声是图像处理中常用的手法。通常去噪声用滤波的方法,比如中值滤波、均值滤波。但是那样的算法不适合用在处理字符这样目标狭长的图像中,因为在滤波的过程中很有可能会去掉字符本身的像素。

一个采用的是去除杂点的方法来进行去噪声处理的。具体算法如下:扫描整个图像,当发现一个黑色点的时候,就考察和该黑色点间接或者直接相连接的黑色点的个数有多少,如果大于一定的值,那就说明该点不是离散点,否则就是离散点,把它去掉。在考察相连的黑色点的时候用的是递归的方法。此处,我简单的用python实现了,大家可以参考以下。

#coding=utf-8"""

creat time:2015.09.14

"""import cv2import numpy as npfrom matplotlib import pyplot as pltfrom PIL import Image,ImageEnhance,ImageFilter

img_name = '2+.png'#去除干扰线im = Image.open(img_name)#图像二值化enhancer = ImageEnhance.Contrast(im)

im = enhancer.enhance(2)

im = im.convert('1')

data = im.getdata()

w,h = im.size#im.show()black_point = 0for x in xrange(1,w-1):    for y in xrange(1,h-1):

mid_pixel = data[w*y+x] #中央像素点像素值

if mid_pixel == 0: #找出上下左右四个方向像素点像素值

top_pixel = data[w*(y-1)+x]

left_pixel = data[w*y+(x-1)]

down_pixel = data[w*(y+1)+x]

right_pixel = data[w*y+(x+1)]            #判断上下左右的黑色像素点总个数

if top_pixel == 0:

black_point += 1

if left_pixel == 0:

black_point += 1

if down_pixel == 0:

black_point += 1

if right_pixel == 0:

black_point += 1

if black_point >= 3:

im.putpixel((x,y),0)            #print black_point

black_point = 0im.show()1234567891011121314151617181920212223242526272829303132333435363738394041424344

原验证码: 

处理后:

4、分割 

图像中一般会含有多个数字,识别的时候只能根据每个字符的特征来进行判断,所以还要进行字符切割的工作。这一步工作就是把图像中的字符独立的切割出来。

具体的算法如下:

第一步,先自下而上对图像进行逐行扫描直至遇到第一个黑色的像素点。记录下来。然后再自上而下对图像进行逐行扫描直至找到第一个黑色像素,这样就找到图像大致的高度范围。

第二步,在这个高度范围之内再自左向右逐列进行扫描,遇到第一个黑色像素时认为是字符切割的起始位置,然后继续扫描,直至遇到有一列中没有黑色像素,则认为这个字符切割结束,然后继续扫描,按照上述的方法一直扫描直至图像的最右端。这样就得到了每个字符的比较精确宽度范围。

第三步,在已知的每个字符比较精确的宽度范围内,按照第一步的方法,分别进行自上而下和自下而上的逐行扫描来获取每个字符精确的高度范围。

5、 图像的归一化 

因为采集的图像中字符大小有可能存在较大的差异,或者是经过切割后的字符尺寸不统一,而相对来说,统一尺寸的字符识别的标准性更强,准确率自然也更高,归一化图像就是要把原来各不相同的字符统一到同一尺寸,在系统实现中是统一到同一高度,然后根据高度来调整字符的宽度。具体算法如下:先得到原来字符的高度,跟系统要求的高度做比较,得出要变换的系数,然后根据得到的系数求得变换后应有得宽度。在得到宽度和高度之后,把新图像里面的点按照插值的方法映射到原图像中。

不少人认为把每个字符图像归一化为 5×9 像素的二值图像是最理想的,因为图像的尺寸越小,识别速度就越高,网络训练也越快。而实际上,相对于要识别的字符图像, 5×9 像素图太小了。归一化后,图像信息丢失了很多,这时进行图像识别,准确率不高。实验证明,将字符图像归一化为 10×18 像素的二值图像是现实中是比较理想的,达到了识别速度快和识别准确率高的较好的平衡点。

三、识别

图像识别包括特征提取、样本训练和识别三大块内容。

验证码识别其中最为关键的就是去噪和分割,这对你的训练和识别的精度都有着很大的影响。这里只讲了大致的流程,其中每个细节都有很多工作要做,这里码字也很难讲清楚,大家可以以这个流程为主线,一步步的实现,最终也就能完成你的需求。

1   摘要

验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的 防火墙 功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越来越严峻。本文介绍了一套字符验证码识别的完整流程,对于验证码安全和OCR识别技术都有一定的借鉴意义。

然后经过了一年的时间,笔者又研究和get到了一种更强大的基于CNN卷积神经网络的直接端到端的验证识别技术(文章不是我的,然后我把源码整理了下,介绍和源码在这里面):

基于python语言的tensorflow的‘端到端’的字符型验证码识别源码整理(github源码分享)

2   关键词

关键词:安全,字符图片,验证码识别,OCR,Python,SVM,PIL

3   免责声明

本文研究所用素材来自于某旧Web框架的网站 完全对外公开 的公共图片资源。

本文只做了该网站对外公开的公共图片资源进行了爬取, 并未越权 做任何多余操作。

本文在书写相关报告的时候已经 隐去 漏洞网站的身份信息。

本文作者 已经通知 网站相关人员此系统漏洞,并积极向新系统转移。

本报告的主要目的也仅是用于 OCR交流学习 和引起大家对 验证安全的警觉 。

4   引言

关于验证码的非技术部分的介绍,可以参考以前写的一篇科普类的文章:

互联网安全防火墙(1)--网络验证码的科普

里面对验证码的种类,使用场景,作用,主要的识别技术等等进行了讲解,然而并没有涉及到任何技术内容。本章内容则作为它的 技术补充 来给出相应的识别的解决方案,让读者对验证码的功能及安全性问题有更深刻的认识。

5   基本工具

要达到本文的目的,只需要简单的编程知识即可,因为现在的机器学习领域的蓬勃发展,已经有很多封装好的开源解决方案来进行机器学习。普通程序员已经不需要了解复杂的数学原理,即可以实现对这些工具的应用了。

主要开发环境:

python3.5

python SDK版本

PIL

图片处理库

libsvm

开源的svm机器学习库

关于环境的安装,不是本文的重点,故略去。

6   基本流程

一般情况下,对于字符型验证码的识别流程如下:

准备原始图片素材

图片预处理

图片字符切割

图片尺寸归一化

图片字符标记

字符图片特征提取

生成特征和标记对应的训练数据集

训练特征标记数据生成识别模型

使用识别模型预测新的未知图片集

达到根据“图片”就能返回识别正确的字符集的目标

7   素材准备

7.1   素材选择

由于本文是以初级的学习研究目的为主,要求 “有代表性,但又不会太难” ,所以就直接在网上找个比较有代表性的简单的字符型验证码(感觉像在找漏洞一样)。

最后在一个比较旧的网站(估计是几十年前的网站框架)找到了这个验证码图片。

原始图:

放大清晰图:

此图片能满足要求,仔细观察其具有如下特点。

有利识别的特点 :

由纯阿拉伯数字组成

字数为4位

字符排列有规律

字体是用的统一字体

以上就是本文所说的此验证码简单的重要原因,后续代码实现中会用到

不利识别的特点 :

图片背景有干扰噪点

这虽然是不利特点,但是这个干扰门槛太低,只需要简单的方法就可以除去

7.2   素材获取

由于在做训练的时候,需要大量的素材,所以不可能用手工的方式一张张在浏览器中保存,故建议写个自动化下载的程序。

主要步骤如下:

通过浏览器的抓包功能获取随机图片验证码生成接口

批量请求接口以获取图片

将图片保存到本地磁盘目录中

这些都是一些IT基本技能,本文就不再详细展开了。

关于网络请求和文件保存的代码,如下:

def downloads_pic(**kwargs):

   pic_name = kwargs.get('pic_name', None)

   url = 'httand_code_captcha/'

   res = requests.get(url, stream=True)

   with open(pic_path + pic_name+'.bmp', 'wb') as f:        for chunk in res.iter_content(chunk_size=1024):            if chunk:  # filter out keep-alive new chunks                f.write(chunk)

               f.flush()

       f.close()

循环执行N次,即可保存N张验证素材了。

下面是收集的几十张素材库保存到本地文件的效果图:

8   图片预处理

虽然目前的机器学习算法已经相当先进了,但是为了减少后面训练时的复杂度,同时增加识别率,很有必要对图片进行预处理,使其对机器识别更友好。

针对以上原始素材的处理步骤如下:

读取原始图片素材

将彩色图片二值化为黑白图片

去除背景噪点

8.1   二值化图片

主要步骤如下:

将RGB彩图转为灰度图

将灰度图按照设定阈值转化为二值图

image = Image.open(img_path)

imgry = image.convert('L')  # 转化为灰度图table = get_bin_table()

out = imgry.point(table, '1')

上面引用到的二值函数的定义如下:

1234567891011121314   def get_bin_table(threshold=140):    """    获取灰度转二值的映射table    :param threshold:    :return:    """    table = []    for i in range(256):        if i <threshold:            table.append(0)        else:            table.append(1)     return table   

由PIL转化后变成二值图片:0表示黑色,1表示白色。二值化后带噪点的 6937 的像素点输出后如下图:

1111000111111000111111100001111100000011

1110111011110111011111011110111100110111

1001110011110111101011011010101101110111

1101111111110110101111110101111111101111

1101000111110111001111110011111111101111

1100111011111000001111111001011111011111

1101110001111111101011010110111111011111

1101111011111111101111011110111111011111

1101111011110111001111011110111111011100

1110000111111000011101100001110111011111

如果你是近视眼,然后离屏幕远一点,可以隐约看到 6937 的骨架了。

8.2   去除噪点

在转化为二值图片后,就需要清除噪点。本文选择的素材比较简单,大部分噪点也是最简单的那种 孤立点,所以可以通过检测这些孤立点就能移除大量的噪点。

关于如何去除更复杂的噪点甚至干扰线和色块,有比较成熟的算法: 洪水填充法 Flood Fill ,后面有兴趣的时间可以继续研究一下。

本文为了问题简单化,干脆就用一种简单的自己想的 简单办法 来解决掉这个问题:

对某个 黑点 周边的九宫格里面的黑色点计数

如果黑色点少于2个则证明此点为孤立点,然后得到所有的孤立点

对所有孤立点一次批量移除。

下面将详细介绍关于具体的算法原理。

将所有的像素点如下图分成三大类

顶点A

非顶点的边界点B

内部点C

种类点示意图如下:

其中:

A类点计算周边相邻的3个点(如上图红框所示)

B类点计算周边相邻的5个点(如上图红框所示)

C类点计算周边相邻的8个点(如上图红框所示)

当然,由于基准点在计算区域的方向不同,A类点和B类点还会有细分:

A类点继续细分为:左上,左下,右上,右下

B类点继续细分为:上,下,左,右

C类点不用细分

然后这些细分点将成为后续坐标获取的准则。

主要算法的python实现如下:

def sum_9_region(img, x, y):    """

   9邻域框,以当前点为中心的田字框,黑点个数

   :param x:

   :param y:

   :return:    """

   # todo 判断图片的长宽度下限

   cur_pixel = img.getpixel((x, y))  # 当前像素点的值

   width = img.width

   height = img.height    if cur_pixel == 1:  # 如果当前点为白色区域,则不统计邻域值

       return 0    if y == 0:  # 第一行

       if x == 0:  # 左上顶点,4邻域

           # 中心点旁边3个点

           sum = cur_pixel \                  + img.getpixel((x, y + 1)) \                  + img.getpixel((x + 1, y)) \                  + img.getpixel((x + 1, y + 1))            return 4 - sum        elif x == width - 1:  # 右上顶点

           sum = cur_pixel \                  + img.getpixel((x, y + 1)) \                  + img.getpixel((x - 1, y)) \                  + img.getpixel((x - 1, y + 1))            return 4 - sum        else:  # 最上非顶点,6邻域

           sum = img.getpixel((x - 1, y)) \                  + img.getpixel((x - 1, y + 1)) \                  + cur_pixel \                  + img.getpixel((x, y + 1)) \                  + img.getpixel((x + 1, y)) \                  + img.getpixel((x + 1, y + 1))            return 6 - sum    elif y == height - 1:  # 最下面一行

       if x == 0:  # 左下顶点

           # 中心点旁边3个点

           sum = cur_pixel \                  + img.getpixel((x + 1, y)) \                  + img.getpixel((x + 1, y - 1)) \                  + img.getpixel((x, y - 1))            return 4 - sum        elif x == width - 1:  # 右下顶点

           sum = cur_pixel \                  + img.getpixel((x, y - 1)) \                  + img.getpixel((x - 1, y)) \                  + img.getpixel((x - 1, y - 1))            return 4 - sum        else:  # 最下非顶点,6邻域

           sum = cur_pixel \                  + img.getpixel((x - 1, y)) \                  + img.getpixel((x + 1, y)) \                  + img.getpixel((x, y - 1)) \                  + img.getpixel((x - 1, y - 1)) \                  + img.getpixel((x + 1, y - 1))            return 6 - sum    else:  # y不在边界

       if x == 0:  # 左边非顶点

           sum = img.getpixel((x, y - 1)) \                  + cur_pixel \                  + img.getpixel((x, y + 1)) \                  + img.getpixel((x + 1, y - 1)) \                  + img.getpixel((x + 1, y)) \                  + img.getpixel((x + 1, y + 1))            return 6 - sum        elif x == width - 1:  # 右边非顶点

           # print('%s,%s' % (x, y))

           sum = img.getpixel((x, y - 1)) \                  + cur_pixel \                  + img.getpixel((x, y + 1)) \                  + img.getpixel((x - 1, y - 1)) \                  + img.getpixel((x - 1, y)) \                  + img.getpixel((x - 1, y + 1))            return 6 - sum        else:  # 具备9领域条件的

           sum = img.getpixel((x - 1, y - 1)) \                  + img.getpixel((x - 1, y)) \                  + img.getpixel((x - 1, y + 1)) \                  + img.getpixel((x, y - 1)) \                  + cur_pixel \                  + img.getpixel((x, y + 1)) \                  + img.getpixel((x + 1, y - 1)) \                  + img.getpixel((x + 1, y)) \                  + img.getpixel((x + 1, y + 1))            return 9 - sum

Tips:这个地方是相当考验人的细心和耐心程度了,这个地方的工作量还是蛮大的,花了半个晚上的时间才完成的。

计算好每个像素点的周边像素黑点(注意:PIL转化的图片黑点的值为0)个数后,只需要筛选出个数为 1或者2 的点的坐标即为 孤立点 。这个判断方法可能不太准确,但是基本上能够满足本文的需求了。

经过预处理后的图片如下所示:

对比文章开头的原始图片,那些 孤立点 都被移除掉,相对比较 干净 的验证码图片已经生成。

9   图片字符切割

由于字符型 验证码图片 本质就可以看着是由一系列的 单个字符图片 拼接而成,为了简化研究对象,我们也可以将这些图片分解到 原子级 ,即: 只包含单个字符的图片。

于是,我们的研究对象由 “N种字串的组合对象” 变成 “10种阿拉伯数字” 的处理,极大的简化和减少了处理对象。

9.1   分割算法

现实生活中的字符验证码的产生千奇百怪,有各种扭曲和变形。关于字符分割的算法,也没有很通用的方式。这个算法也是需要开发人员仔细研究所要识别的字符图片的特点来制定的。

当然,本文所选的研究对象尽量简化了这个步骤的难度,下文将慢慢进行介绍。

使用图像编辑软件(PhoneShop或者其它)打开验证码图片,放大到像素级别,观察其它一些参数特点:

可以得到如下参数:

整个图片尺寸是 40*10

单个字符尺寸是 6*10

左右字符和左右边缘相距2个像素

字符上下紧挨边缘(即相距0个像素)

这样就可以很容易就定位到每个字符在整个图片中占据的像素区域,然后就可以进行分割了,具体代码如下:

def get_crop_imgs(img):    """

   按照图片的特点,进行切割,这个要根据具体的验证码来进行工作. # 见原理图

   :param img:

   :return:    """

   child_img_list = []    for i in range(4):

       x = 2 + i * (6 + 4)  # 见原理图

       y = 0

       child_img = img.crop((x, y, x + 6, y + 10))

       child_img_list.append(child_img)    return child_img_list

然后就能得到被切割的 原子级 的图片元素了:

9.2   内容小结

基于本部分的内容的讨论,相信大家已经了解到了,如果验证码的干扰(扭曲,噪点,干扰色块,干扰线……)做得不够强的话,可以得到如下两个结论:

4位字符和40000位字符的验证码区别不大

纯字母

不区分大小写。分类数为26

区分大小写。分类数为52

纯数字。分类数为10

数字和区分大小写的字母组合。分类数为62

纯数字 和 数字及字母组合 的验证码区别不大

在没有形成 指数级或者几何级 的难度增加,而只是 线性有限级 增加计算量时,意义不太大。

10   尺寸归一

本文所选择的研究对象本身尺寸就是统一状态:6*10的规格,所以此部分不需要额外处理。但是一些进行了扭曲和缩放的验证码,则此部分也会是一个图像处理的难点。

11   模型训练步骤

在前面的环节,已经完成了对单个图片的处理和分割了。后面就开始进行 识别模型 的训练了。

整个训练过程如下:

大量完成预处理并切割到原子级的图片素材准备

对素材图片进行人为分类,即:打标签

定义单张图片的识别特征

使用SVM训练模型对打了标签的特征文件进行训练,得到模型文件

12   素材准备

本文在训练阶段重新下载了同一模式的4数字的验证图片总计:3000张。然后对这3000张图片进行处理和切割,得到12000张原子级图片。

在这12000张图片中删除一些会影响训练和识别的强干扰的干扰素材,切割后的效果图如下:

13   素材标记

由于本文使用的这种识别方法中,机器在最开始是不具备任何 数字的观念的。所以需要人为的对素材进行标识,告诉 机器什么样的图片的内容是 1……。

这个过程叫做 “标记”。

具体打标签的方法是:

为0~9每个数字建立一个目录,目录名称为相应数字(相当于标签)

人为判定 图片内容,并将图片拖到指定数字目录中

每个目录中存放100张左右的素材

一般情况下,标记的素材越多,那么训练出的模型的分辨能力和预测能力越强。例如本文中,标记素材为十多张的时候,对新的测试图片识别率基本为零,但是到达100张时,则可以达到近乎100%的识别率

14   特征选择

对于切割后的单个字符图片,像素级放大图如下:

从宏观上看,不同的数字图片的本质就是将黑色按照一定规则填充在相应的像素点上,所以这些特征都是最后围绕像素点进行。

字符图片 宽6个像素,高10个像素 ,理论上可以最简单粗暴地可以定义出60个特征:60个像素点上面的像素值。但是显然这样高维度必然会造成过大的计算量,可以适当的降维。

通过查阅相应的文献 [2],给出另外一种简单粗暴的特征定义:

每行上黑色像素的个数,可以得到10个特征

每列上黑色像素的个数,可以得到6个特征

最后得到16维的一组特征,实现代码如下:

def get_feature(img):    """

   获取指定图片的特征值,

   1. 按照每排的像素点,高度为10,则有10个维度,然后为6列,总共16个维度

   :param img_path:

   :return:一个维度为10(高度)的列表    """

   width, height = img.size

   pixel_cnt_list = []

   height = 10    for y in range(height):

       pix_cnt_x = 0        for x in range(width):            if img.getpixel((x, y)) == 0:  # 黑色点

               pix_cnt_x += 1

       pixel_cnt_list.append(pix_cnt_x)    for x in range(width):

       pix_cnt_y = 0        for y in range(height):            if img.getpixel((x, y)) == 0:  # 黑色点

               pix_cnt_y += 1

       pixel_cnt_list.append(pix_cnt_y)    return pixel_cnt_list

然后就将图片素材特征化,按照 libSVM 指定的格式生成一组带特征值和标记值的向量文