各位渴望看我笑话的老铁们,恭喜,你们又有乐子看了。
在昨天顺利攻克了文本编辑器难题后,我很愉快继续学习后面的两个小节《Python代码运行助手》《输入和输出》。
前者没啥可说的,感觉跟我没啥太大关系、意义不大,简单看看就过去了。
《输入和输出》一节,按照教程操作,还是蛮愉快的。
这节主要讲了print和input命令的使用方法,以及变量的概念。
前面的学习过程可谓一马平川,结果最后的练习稍微出现了点小问题。
练习:请利用print()输出1024 * 768 = xxx。
我本来觉得是个很简单的问题,没想到输入了4遍才搞定。
我估计应该是中间错加了空格的问题。
好吧,对比例子,应该还得加逗号。
嗯,这他么其实是个手误,逗号输错了位置。(残念)
这小玩意都用了四遍才搞定,40岁的老男人真的太难了。
继续进入后面的学习。
下一章《Python基础》中第一节《数据类型和变量》。
然后,我就蒙圈了。
这一节的内容知识量明显增多,前面的内容还好,按部就班的按照教程进行操作就好。
后面开始出现转义符的概念,什么\n、\t、\之类的东东,总之确实需要动些脑子了。
这里我觉得,是不是可以简单理解为:两个“\”表示显示“\”,一个“\”表示转义呢?
相比之下,后面讲“用r''表示''内部的字符串默认不转义”我感觉更好理解一些。
还有,“\t 表示制表符”是什么意思?
我真的好傻,悲伤的泪水不争气的流了下来。
上面的问题,哪位知道的仁兄,望在评论区赐教,在此谢过了。
再往后讲变量,我就有点进行不下去了。
给a赋值为1,这个我明白,但是后面t_007=T007,这是为啥?咋蹦出来的?
或者t_007跟a是一个概念,也是在进行赋值操作?
我这么猜测不知道对不对。
他后面举的那个例子,我就彻底晕菜了。
其实说起来,可能也不能怪人家教程,周末这两天在家,确实也很难静下来学习。
但是另一方面,就像很多网友评论区、微信上跟我探讨的,廖雪峰这个教程确实还是存在一些问题的,甚至有人说他有些误导的成分在里面,这个我学的还少,就不敢妄言了。
所以,我决定,结合自己的实际情况(岁数大、脑子慢!),以后以b站600集视频为主不香吗?
毕竟,那个看的很欢乐,最关键的是,学习至今还没遇到槛。
所以,下一期的心得,我就说说在b站上,我都学了些啥吧。。。
关于知乎验证码登陆的问题,用到了Python上一个重要的图片处理库PIL,如果不行,就把图片存到本地,手动输入。
通过对知乎登陆是的抓包,可以发现登陆知乎,需要post三个参数,一个是账号,一个是密码,一个是xrsf。
这个xrsf隐藏在表单里面,每次登陆的时候,应该是服务器随机产生一个字符串。所有,要模拟登陆的时候,必须要拿到xrsf。
用chrome (或者火狐 httpfox 抓包分析)的结果:
所以,必须要拿到xsrf的数值,注意这是一个动态变化的参数,每次都不一样。
拿到xsrf,下面就可以模拟登陆了。
使用requests库的session对象,建立一个会话的好处是,可以把同一个用户的不同请求联系起来,直到会话结束都会自动处理cookies。
注意:cookies 是当前目录的一个文件,这个文件保存了知乎的cookie,如果是第一个登陆,那么当然是没有这个文件的,不能通过cookie文件来登陆。必须要输入密码。
这是登陆的函数,通过login函数来登陆,post 自己的账号,密码和xrsf 到知乎登陆认证的页面上去,然后得到cookie,将cookie保存到当前目录下的文件里面。下次登陆的时候,直接读取这个cookie文件。
这是cookie文件的内容
以下是源码:
运行结果:
https://github.com/zhaozhengcoder/Spider/tree/master/spider_zhihu
爬虫策略:
这两个都是在http协议的报文段的检查,同样爬虫端可以很方便的设置这些字段的值,来欺骗服务器。
反爬虫进阶策略:
1.像知乎一样,在登录的表单里面放入一个隐藏字段,里面会有一个随机数,每次都不一样,这样除非你的爬虫脚本能够解析这个随机数,否则下次爬的时候就不行了。
2.记录访问的ip,统计访问次数,如果次数太高,可以认为这个ip有问题。
爬虫进阶策略:
1.像这篇文章提到的,爬虫也可以先解析一下隐藏字段的值,然后再进行模拟登录。
2.爬虫可以使用ip代理池的方式,来避免被发现。同时,也可以爬一会休息一会的方式来降低频率。另外,服务器根据ip访问次数来进行反爬,再ipv6没有全面普及的时代,这个策略会很容易造成误伤。(这个是我个人的理解)。
通过Cookie限制进行反爬虫:
和Headers校验的反爬虫机制类似,当用户向目标网站发送请求时,会再请求数据中携带Cookie,网站通过校验请求信息是否存在Cookie,以及校验Cookie的值来判定发起访问请求的到底是真实的用户还是爬虫,第一次打开网页会生成一个随机cookie,如果再次打开网页这个Cookie不存在,那么再次设置,第三次打开仍然不存在,这就非常有可能是爬虫在工作了。
反爬虫进进阶策略:
1.数据投毒,服务器在自己的页面上放置很多隐藏的url,这些url存在于html文件文件里面,但是通过css或者js使他们不会被显示在用户看到的页面上面。(确保用户点击不到)。那么,爬虫在爬取网页的时候,很用可能取访问这个url,服务器可以100%的认为这是爬虫干的,然后可以返回给他一些错误的数据,或者是拒绝响应。
爬虫进进阶策略:
1.各个网站虽然需要反爬虫,但是不能够把百度,谷歌这样的搜索引擎的爬虫给干了(干了的话,你的网站在百度都说搜不到!)。这样爬虫应该就可以冒充是百度的爬虫去爬。(但是ip也许可能被识破,因为你的ip并不是百度的ip)
反爬虫进进进阶策略:
给个验证码,让你输入以后才能登录,登录之后,才能访问。
爬虫进进进阶策略:
图像识别,机器学习,识别验证码。不过这个应该比较难,或者说成本比较高。
参考资料:
廖雪峰的python教程
静觅的python教程
requests库官方文档
segmentfault上面有一个人的关于知乎爬虫的博客,找不到链接了
我觉得这两个东西都很棒,但是它们有着不同的目的。廖雪峰的Python教程是专为初学者而准备的,而小甲鱼的视频教程更多的是以技术性的方式来解释。所以,如果你想学习Python,可以根据你的学习需求选择一种教程,而不是一定要选择其中一种。