验证码的识别

2023-02-19 08:30:02Python046

验证码的识别,第1张

验证码是一种反爬虫的措施，目前的验证码主要有图像验证码、极验滑动验证码、点触验证码、微博宫格验证码等。根据不同类型的验证码，有以下识别的方法。

利用OCR字符识别技术来实现，需要安装tesserocr库进行识别。 因为验证码图片的背景有些多余的线条、颜色会干扰识别效果，因此可以在识别前对图片进行二值化处理或灰度处理

它通过拖动滑块来拼合图像进而实现验证。识别的主要思路：利用selenium来模拟点击验证按钮，获取包含缺口的图片，将原图与其对比，识别出缺口位置，模拟拖动。模拟拖动时需要注意，不能匀速，因为人无法做到匀速拖动，因此会导致识别识别。比较好的办法就是，模拟加速和减速运动来进行拖动。前段先加速后段在减速。

这种验证码主要有两种，一种是点击图中所以符合要求的图片，二是按照顺序点击指定的文字。对于这种验证码，可以利用第三方平台来实现识别，比如超级鹰。具体思路 将验证码的图片传入到第三方平台上，然后根据第三方平台范围的坐标位置，进行依次点击。

这种验证码的宫格之间会有一条指示连线，指示了用户需要滑动的轨迹。如果要识别这种验证码，就需要识别箭头的指示方向，因此需要首先找到所有箭头的位置，然后计算像素点的变化规律。这个方法比较麻烦。对于这种验证码可以采用另一种思路：模板匹配，即首先将所有可能出现的验证码图片收集下来，这样每个图片的滑动顺序已知，构成一个模板库。在每一次识别时，将原图与模板库中的图片进行匹配即可。

在写爬虫的时候难免会遇到验证码识别的问题，常见的验证码识别的流程为：

- 图像灰度化

- 图像去噪(如图像二值化)

- 切割图片

- 提取特征

- 训练

但这种方法要切割图片，而且破解验证码的重点和难点就在于能否成功分割字符。

本文要介绍的算法不需要进行图片切割，也不需要进行机器训练，这种方法就是模板匹配：将待识别的文字切割成一个个模板，在待识别的图像中去匹配模板。

这篇文章将分为两个部分：

第一部分介绍模板匹配的基本概念以及模板匹配的一种实现算法：快速归一化互相关匹配算法；

第二部分是一个具体实例。

模板匹配是在图像中寻找目标的方法之一，目的就是在一幅图像中寻找和模板图像最相似的区域。

模板匹配的大致过程是这样的：通过在输入图像上滑动图像块对实际的图像块和输入图像进行匹配。

假设我们有一张100x100的输入图像，有一张10x10的模板图像，查找的过程是这样的：

从输入图像的左上角(0,0)开始，切割一块(0,0)至(10,10)的临时图像；

用某种方法得出临时图像与模板的相似度c,存放到相似度矩阵中（矩阵大小为91 x91）；

切割输入图像从(0,1)至(10,11)的临时图像，对比，并记录到相似度矩阵；

重复上述步骤，直到输入图像的右下角。

最终得到一个相似度矩阵，找到矩阵中的最大或最小值，最大值（最小值）对应的临时图像即为与模板最相似的图像。

在步骤b中，求模板与图像的相似度有多种方法，如平均绝对差算法（MAD）、绝对误差和算法（SAD）、误差平方和算法（SSD）、归一化互相关算法（NCC），本文使用的是归一化互相关算法。

什么是归一化互相关？

从几何图形上来看，空间中的两个向量，同方向平行时，归一化互相关系数为1，表示两个向量最相似，反方向平行时归一化互相关系数为-1，垂直时为0，表示最不相似（用互相垂直的三个向量来代表整个空间也是这个道理，垂直的向量之间不包含对方的信息，相关系数为0），存在一定夹角时处于（-1，1），是不是跟余弦函数很像，cos(0)=1,cos(pi/2)=0,cos(pi)=-1。就是这个样子的，相关系数可以看作是两个向量之间夹角的cosine函数。

在数学中是这么计算cosine函数的，假设两个n维向量X,Y，对应的坐标分别为(x1，x2，…xn), (y1，y2，…yn) 则：

（如果想要了解更多，请参考文献【2】）

但这是一维的，在模板匹配中要再加一个维度（具体算法请参考文献【3】），简要说一下文献【3】的内容：如果直接计算二维相似度的话计算复杂度会非常高，文献【3】利用快速傅里叶变换与积分图像快速算法来降低计算复杂度。

接下来让我们看一个具体的应用。

模板匹配识别验证码的具体步骤为：

1. 找出图片中所有可能出现的字符，制作成模板集合

2. 图像灰度化

3. 图片去噪（二值化）

4. 模板匹配

5. 匹配结果优化

要识别的图片如下，以识别图片中的加字为例：

要从image中找到与模板最匹配的部分，Template图像是事先从image图像中截取的一部分。所用的为python模块skimage中的match_template方法，match_template方法使用的是快速归一化互相关算法【2】。

遍历模板图像集合，与图像匹配，如果dist大于阈值h，则认为此模板在图像中存在，否则不存在，继续匹配下一个模板，直到遍历完所有模板。

以模板‘加’为例，图像大小为40x260，模板大小27x27，result是一个大小为（14，234）的矩阵，即上文提到的相似度矩阵，矩阵中的数值属于[-1,1]，找到result中最大值所处的对应位置即为与模板最匹配的图像位置:x=66,y=11，正好对应模板图像在image中所处的位置。（更多内容请参阅参考文献【4】）

但这是比较好的情况，因为在匹配时遍历了所有的模板，而一张图片中出现的模板数量是有限的，比如数字’四’在图片中是没有的，这时就要根据某种规则去掉这些在图片中没有出现的模板：程序中使用dist变量来过滤匹配结果，如果dist变量大于某个值则认为此模板在图像中不存在。

最后的result_list中可能仍然存在一些图片中不存在的模板或者匹配不精确的模板，比如数字‘一’在模板中不存在，但仍然可以匹配到，因为数字‘二’中可以匹配到‘一’，需要进一步优化，优化方法有很多，比如当匹配到的两个模板距离过近时，选择较大的那个模板，其余方法留给读者自行考虑吧。

后续将会推出如何使用深度学习识别验证码，敬请期待~

参考文献：

http://www.cnblogs.com/beer/p/5672678.html

http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

J. P. Lewis, “Fast Normalized Cross-Correlation”, Industrial Light and Magic.

http://scikit-image.org/docsjinhqin/dev/auto_examples/plot_template.html

本文作者：李晖（点融黑帮），毕业于电子科技大学，现就职于点融成都Data部门，对一切新鲜事物充满好奇，对跳舞毫无抵抗力的活力女青年一枚。

模板图像验证码图片算法

# 上一篇：css怎么改变button的边框颜色

# 下一篇：Python 数据处理（二十四）—— 索引和选择