15《Python 原生爬虫教程》爬虫和反爬虫

2023-02-26 21:51:01Python010

15《Python 原生爬虫教程》爬虫和反爬虫,第1张

有的时候，当我们的爬虫程序完成了，并且在本地测试也没有问题，爬取了一段时间之后突然就发现报错无法抓取页面内容了。这个时候，我们很有可能是遇到了网站的反爬虫拦截。

我们知道，网站一方面想要爬虫爬取网站，比如让搜索引擎爬虫去爬取网站的内容，来增加网站的搜索排名。另一方面，由于网站的服务器资源有限，过多的非真实的用户对网站的大量访问，会增加运营成本和服务器负担。

这是一种最基本的反爬虫方式，网站运营者通过验证爬虫的请求头的 User-agent,accep-enconding 等信息来验证请求的发出宿主是不是真实的用户常用浏览器或者一些特定的请求头信息。

通过 Ajax，或者javascript 来动态获取和加载数据，加大爬虫直接获取数据的难度。

这个相信大多数读者非常熟悉了吧，当我们输错多次密码的时候，很多平台都会弹出各种二维码让我们识别，或者抢火车票的时候，会出现各种复杂的验证码，验证码是反爬虫措施中，运用最广，同时也是最有效直接的方式来阻止爬虫的措施之一。

在识别到某些异常的访问的时候，网站运营者会设置一个黑名单，把一些判定为爬虫的IP进行限制或者封杀。

有些网站，没有游客模式，只有通过注册后才可以登录看到内容，这个就是典型的使用账号限制网站，一般可以用在网站用户量不多，数据安全要求严格的网站中。

我们可以在请求头中替换我们的请求媒介，让网站误认为是我们是通过移动端的访问，运行下面的代码后，当我们打开 hupu.html,我们会发现返回的是移动端的虎扑的页面而不是网页端的。

比如，我们可以设置一个随机的间隔时间，来模拟用户的行为，减少访问的次数和频率。我们可以在我们爬虫的程序中，加入如下的代码，让爬虫休息3秒左右，再进行爬取，可以有效地避开网站的对爬虫的检测和识别。

代理就是通过访问第三方的机器，然后通过第三方机器的 IP 进行访问，来隐藏自己的真实IP地址。

由于第三方代理良莠不齐，而且不稳定，经常出现断线的情况，爬取速度也会慢许多，如果对爬虫质量有严格要求的话，不建议使用此种方法进行爬取。

可以通过动态的 IP 拨号服务器来变换 IP，也可以通过 Tor 代理服务器来变换 IP。

反反爬虫的策略，一直是在变换的，我们应该具体问题具体分析，通过不断的试错来完善我们的爬虫爬取，千万不要以为，爬虫程序在本机调试之后，没有问题，就可以高枕无忧了。线上的问题，总是千变万化，我们需要根据我们的具体反爬措施，来针对的写一些反反爬虫的代码，这样才能保证线上环境的万无一失。

关于知乎验证码登陆的问题，用到了Python上一个重要的图片处理库PIL,如果不行，就把图片存到本地，手动输入。

通过对知乎登陆是的抓包，可以发现登陆知乎，需要post三个参数，一个是账号，一个是密码，一个是xrsf。

这个xrsf隐藏在表单里面，每次登陆的时候，应该是服务器随机产生一个字符串。所有，要模拟登陆的时候，必须要拿到xrsf。

用chrome （或者火狐 httpfox 抓包分析）的结果：

所以，必须要拿到xsrf的数值，注意这是一个动态变化的参数，每次都不一样。

拿到xsrf，下面就可以模拟登陆了。

使用requests库的session对象，建立一个会话的好处是，可以把同一个用户的不同请求联系起来，直到会话结束都会自动处理cookies。

注意：cookies 是当前目录的一个文件，这个文件保存了知乎的cookie，如果是第一个登陆，那么当然是没有这个文件的，不能通过cookie文件来登陆。必须要输入密码。

这是登陆的函数，通过login函数来登陆，post 自己的账号，密码和xrsf 到知乎登陆认证的页面上去，然后得到cookie，将cookie保存到当前目录下的文件里面。下次登陆的时候，直接读取这个cookie文件。

这是cookie文件的内容

以下是源码：

运行结果：

https://github.com/zhaozhengcoder/Spider/tree/master/spider_zhihu

反爬虫最基本的策略：

爬虫策略：

这两个都是在http协议的报文段的检查，同样爬虫端可以很方便的设置这些字段的值，来欺骗服务器。

反爬虫进阶策略：

1.像知乎一样，在登录的表单里面放入一个隐藏字段，里面会有一个随机数，每次都不一样，这样除非你的爬虫脚本能够解析这个随机数，否则下次爬的时候就不行了。

2.记录访问的ip，统计访问次数，如果次数太高，可以认为这个ip有问题。

爬虫进阶策略：

1.像这篇文章提到的，爬虫也可以先解析一下隐藏字段的值，然后再进行模拟登录。

2.爬虫可以使用ip代理池的方式，来避免被发现。同时，也可以爬一会休息一会的方式来降低频率。另外，服务器根据ip访问次数来进行反爬，再ipv6没有全面普及的时代，这个策略会很容易造成误伤。（这个是我个人的理解）。

通过Cookie限制进行反爬虫：

和Headers校验的反爬虫机制类似，当用户向目标网站发送请求时，会再请求数据中携带Cookie，网站通过校验请求信息是否存在Cookie，以及校验Cookie的值来判定发起访问请求的到底是真实的用户还是爬虫，第一次打开网页会生成一个随机cookie，如果再次打开网页这个Cookie不存在，那么再次设置，第三次打开仍然不存在，这就非常有可能是爬虫在工作了。

反爬虫进进阶策略：

1.数据投毒，服务器在自己的页面上放置很多隐藏的url，这些url存在于html文件文件里面，但是通过css或者js使他们不会被显示在用户看到的页面上面。（确保用户点击不到）。那么，爬虫在爬取网页的时候，很用可能取访问这个url，服务器可以100%的认为这是爬虫干的，然后可以返回给他一些错误的数据，或者是拒绝响应。

爬虫进进阶策略：

1.各个网站虽然需要反爬虫，但是不能够把百度，谷歌这样的搜索引擎的爬虫给干了（干了的话，你的网站在百度都说搜不到！）。这样爬虫应该就可以冒充是百度的爬虫去爬。（但是ip也许可能被识破，因为你的ip并不是百度的ip）

反爬虫进进进阶策略：

给个验证码，让你输入以后才能登录，登录之后，才能访问。

爬虫进进进阶策略：

图像识别，机器学习，识别验证码。不过这个应该比较难，或者说成本比较高。

参考资料：

廖雪峰的python教程

静觅的python教程

requests库官方文档

segmentfault上面有一个人的关于知乎爬虫的博客，找不到链接了

爬虫网站策略文件进阶