Python 写的爬虫爬久了就假死怎么回事

Python013

Python 写的爬虫爬久了就假死怎么回事,第1张

假死什么意思?

我遇到的几种情况是有可能你频繁的爬取同一个网站的数据,这个网站把你的ip暂时或者永久的加入了黑名单,一段时间内或者永久限制你的访问。网站可能有最大访问频率的限制,根据这个时间来设置时延可以解决这个问题。或者可能由于网络不稳定等原因。至于其他的问题就不清楚了。

错误代码是10060,连接超时,你的url_1访问应该没有问题,你试着调试一下另外几个地方捕获到的链接,验证一下捕获的URL的正确性,可以自己用浏览器试试。

报错最好把所有报错代码都贴出来,要不然不容看出是什么地方有问题。

我大概跑了一下你的程序,我这边可以正常跑完,(把程序放在桌面上,桌面上全是乱七八糟的图片了)。这样你检查下你的网络链接吧,用Python urlopen试试其他网页是否能正常get到。

先查卡死的位置。

top命令和日志方式判定卡死的位置,top命令可以看到机器上所有线程的执行情况,接下来会提示输入用户名,就可以查看该用户所执行的所有线程。接下来通过打日志的方式来确定线程究竟是卡死在哪里了,线程卡死的地方大多数都是在io或者http请求那,所以以后遇到线程卡死的情况,就通过打日志的方式来确定卡死的位置。

10个服务进程被10个客户端连接霸占了,另外5个进程获取不到连接,自然就一直卡住了。