学习Python爬虫需要多久

Python011

学习Python爬虫需要多久,第1张

完全掌握Python参加培训需要4-6个月左右,如果单纯的入门的话1-2个月左右就差不多了。

Python爬虫就是使用Pythoni程序开发的网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,主要用于搜索引擎,它将一个网站的所有内容与链接进行阅读,并建立相关的全文素引到数据库中,然后跳到另一个网站。

Python开发软件可根据其用途不同分为两种,一种是Python代码编辑器,一种是Python集成开发工具,两者的配合使用可以极大的提高Python开发人员的编程效率。

爬虫本质上不需要分布式。因为你要爬一个网站通常5-10个线程足够了,再多就是对网站压力测试了。你只需要将任务分配到不同的机器上,然后各运行各自己的,结果合并一下就可以。这个与nutch人map,reduse也没有什么差别。只是手工分,手工合并。当然也可以用脚本分,脚本合并,脚本远程启动。有一个远程控制模块,似乎叫rpy。很简单,很容易上手。可以远程控制一个模块。数据库用postgresql不是很好。因为爬行结果放在关系型数据库里太吃力。特别是网页内容。通常是URL放在redis里。内容放在文件系统里,你可以用hadoop+hdfs+thrift方案放在hadoop里。如果使用了hadoop,就干脆模仿nutch的流程,把python脚本也交给hadoop去管理好了。至于控制与通信这个都让hadoop来处理好了。当然我个人觉着rpy方式更简单。里面控制与通信都是现成的。10分钟就学会了。还是回到原来的说法,大部分情况下,单机多线程跑爬虫足够用了。不需要分布式。而且效率甚至比分布式更高。