python爬虫模拟登录是什么意思

Python010

python爬虫模拟登录是什么意思,第1张

那么你在用爬虫爬取的时候获得的页面究竟是哪个呢?

肯定是第二个,不可能说你不用登录就可以访问到一个用户自己的主页信息,那么是什么让同一个URL在爬虫访问时出现不同内容的情况呢?

在第一篇中我们提到了一个概念,cookie,因为HTTP是无状态的,所以对方服务器并不知道这次请求到底来自于谁,就好像突然你收到了一封信,上面让你给他寄一些东西,但是信上却没有他的联系方式。

在HTTP中也是如此,我们普通的请求都类似于匿名信,而cookie的出现,就是让这封信上盖上了你自己的名字。

在请求时附带上你的cookie,服务器放就会知道这次请求来自于谁,然后你点击个人信息页,服务器就知道是要返回这个cookie对应的用户的信息页了。

在谷歌浏览器中,你可以在控制台Application里面找到当前网站的所有cookie键值对。一般来说用于确认你个人信息的只有一个键值对,但是你也可以把所有的都用上,并不能保证对方服务器是不是对某些键值对也进行检查了。

很多网站在你没有登录的情况下并不会给过多的数据让你看,所以你的爬虫需要进行一次模拟登录。

模拟登录需要从一个网站的登录界面开始,因为我们要在这里用爬虫发送post请求附带账号密码来登录对方网站。

去年在公司写过一个爬虫工具,用于抓取自动化报告通过率、自动发送报告。由于当时是第一次接触爬虫,难免会遇到各种问题,解决方案全都是按照网上的一些爬虫文章示例,照猫画虎写的。虽然能正常使用,但其实很多地方都没弄明白。最近学习了一些前端和后台的原理,了解了cookie与session的机制,总算弄明白了爬虫登录过程中的一个疑问。

编写爬虫第一步,在登录公司的自动化平台时就遇到了一个难题,登录请求中必须包含一个authenticity_token字段。令人头大的是,完全不知道这个字段从何而来,而且该字段还每次都不一样,参考的爬虫登录示例也没教啊!真是急坏苯宝宝了