爬取煎蛋妹子图-python

Python028

爬取煎蛋妹子图-python,第1张

煎蛋做了反爬虫的机制,图片的URL做了加密处理,F12能看到,但是beautifulsoup解析不出来。 本来是想找解密的方法,无意中搜到selemium这个神器。 selenium 是一个web的自动化测试工具,可以模拟用户操作浏览器。这样就可以直接获取图片URL了

内网: https://npm.taobao.org/mirrors/chromedriver/

外网: https://sites.google.com/a/chromium.org/chromedriver/downloads

项目地址: https://github.com/aszt/jiandan-gril

注:源码中存放了最新版,支持Chrome v62-64

PS:爬煎蛋不要太过分,对煎蛋服务器压力很大,练手后去爬其他大站吧。

人家是防爬行的。你先找一个fiddler,然后自己上去浏览,同时抓包。根据抓包结果分析它的防盗链的办法。比如使用ref, 使用cookie, 使用javascript, 随机地址,防并发下载,验证码,使用特殊HTTP方法等等。防盗是有代价的,通常网站还是用防多线程下载实现的。

你用爬虫下载的时候,最好不要用多线程。这样会给网站很大的压力。单线程已经很快了,为什么还要暴力爬行。

图片链接,估计是爬妹子图吧~~

为什么现在没有图片链接了呢,,

故事是这样的,这个世界每天都会诞生好多好多的爬虫,爬虫天生就很好奇(se),喜欢去玩弄煎蛋君的妹子-图,刚刚成年的爬虫总是不知疲倦、前仆后继,于是妹子-图就慢慢受不了啦,煎蛋君一看,自己的妹子-图要被玩坏啦,怎么办啊?煎蛋君也很纠结呢,又想要妹子-图正常上班,又心疼被玩坏,于是煎蛋君就下了血本请了业界很有名的保镖来看店,这个保镖大家都认识,顶顶大名的哈希。哈希还是很牛X的,一拳一个光玩不消费的小年轻。小年轻们被揍了,好气好气,然后小年轻们就来到度娘神庙诉苦,度娘一听心想,哎呀,那个流氓我也惹不起的呀,把他们介绍给更厉害一点的流氓吧。

于是乎,小年轻们就都来到了selenium大神的校场。“大神就是大神,连名字我都念不全,洋气!“,“诶诶诶,听说大神进店就包场呀,好霸气!”刚来就听到其他小年轻在底下悄悄议论,小年轻们不禁向主席台投去了崇拜的目光。selenium站起来,全场肃静,大神话不多,但足以振奋人心,"跟着我,妹子-图,不会少",话落音,一段代码便如魔法般映入小年轻们的眼中,

编,,编不下去啦~~~