β

老司机爬虫系列之开篇

静觅 904 阅读

警告:阅读本教程需要年满18周岁,未满18周岁者需要在父母陪同下阅读!

FBI

虽然这个系列叫做老司机爬虫系列,但是作为作者的我接触爬虫的时间并不长,那么为什么叫老司机呢?

老司机3

爬虫入门的教程不少,其中很多都是爬取妹子图片的——比如从 淘宝模特 啊, 妹子图 啊, 淘女郎 啊,我也是从这些地方开始的。

但是作为一个业余鉴黄师,爱情动作影片爱好者,1024、草榴社区资深会员,当我爬取这些把自己裹得严严实实的妹子图片时,我感觉自己的荣耀被践踏,我感觉到了python技术圈对司机这一光荣职业的不尊重。

我不能明白,为什么付出努力学习爬虫,却只去爬几张一动不动的图片。

我不能接受,这些衣着滴水不漏的PNG,JPG文件,跟那些有声有色,笑靥如花的女神们同处一室,额,不对,是同处一块磁盘分区里。

你能理解一个常年开越野在大草原上游荡的老司机,被迫驾驶儿童车上路的感受吗?恩,就是下面这种感觉——

老司机4

太难受了!

所以,在我学习完入门教程之后,马上迫不及待的钻进我的战车,冲向了秋名山。

网页截图1

经过了技术学校的培训,我的车技已经跟原来的车友们根本不在同一水平线上,他们根本不敢相信——同样的驾驶员,同样的车子,在同样的赛道上,速度竟然可以飙到原来的数十倍以上!

控制台截图1

就在电闪雷鸣间,我已经到达了终点!

文件夹截图1

文件夹截图3

我回头看去,发现曾经的车友呆在原地,长大了嘴巴吃jing,根本无法理解这一切。

吃惊表情1

那么到底是什么让我拥有了这样的能力呢?没错,是python爬虫。

雷神之锤

在开始之前,请先问自己几个问题——

你是不是还在苦苦的浏览着网速极为不稳定的各种网站,只为寻找一部封面还说得过去的作品?!

无法显示

你是不是也想让封面充满你的硬盘,让几十万种子的URL填补你那幼小的心灵?

database属性

或者,你仅仅是不希望苦苦学习爬虫,只为了爬取几张把自己裹得严严实实的模特图片?

淘女郎1

再或者,你只是希望自己的python也能如雷神之锤一样呼风唤雨?

锤子

如果你的回答是”Yes”,那么,不要犹豫,不要彷徨,

你所需要做的,只是简单地拿出你的公交卡,刷卡,上车。

刷卡

因为,这个教程,就是为你写的。

以上。

主要内容,暂时想到这么几部分:

1、1024篇

教你爬取1024站上所有的封面,种子,番号等,保存到本地。这是我学习爬虫做的第一个项目。关于此,我有一篇简单的 知乎回答 ,不过这里是写了做了什么,没写怎么做的。

2、大规模爬取图片篇

使用Selenium&PhantomJS遍历网站,建立框架,下载图片URL。

算下来,在学习python爬虫的4个星期内,我第一个周学习python的教程,第二周学习爬虫下载1024的种子封面等,第三周第四周就接了几个找我做爬虫的私活,拿到了几k的收入。这是我所没有想到的,爬虫的应用,需求比我们想象的要广;而且它又非常好玩,相信我,付出点时间认真学一下,你的收获不止你的预期。不过首先说在前面,最重要的是把技术学到了,我不能保证一定可以接到赚外快的机会,但技术今后能给你带来的价值绝对远超外快。

当时比较大的项目是爬取一个图片网站全站的数据,总共约一百万张图片,教程里的2、3、4就是我在爬这个网站时感觉学到的最有价值的部分。在教程里,我们会以另外一个图像网站为例子,我当时爬的网站虽然不是这个,但是这个里面也有三百万张图,也是个典型的超大数据网站。

3、大规模爬取图片篇

多线程+自己建立简单的TCP网络调度python爬虫在多台电脑上跑。

建立自己的网络,听起来很酷吧?用自己的电脑作为控制中心,实时分配小任务给N台计算机,控制不同地方的计算机处理同一个大型任务,可以大大提高处理任务的效率。学会这一点,不仅仅是爬虫,今后需要做任何需要海量下载,计算,分析的任务时,你都可以使用这里的方法。我已经将TCP网络的方法封装成类,你只需定义自己的任务就可以。

4、大规模爬取图片篇

应对一般网站的防盗链,防爬虫机制——绕过IP封锁;UA更换;添加refer;使用Selenium+浏览器插件等。

慢慢地你会发现一般的网站再也拦不住你,等到你会使用Selenium+浏览器插件时,就再也没有网站会认为你是个爬虫了。

转载请注明: 静觅 » 老司机爬虫系列之开篇

作者:静觅
静静寻觅生活的美好
原文地址:老司机爬虫系列之开篇, 感谢原作者分享。