Python爬虫如何避免爬取网站访问过于频繁

2023-02-20 04:35:01Python020

Python爬虫如何避免爬取网站访问过于频繁,第1张

一. 关于爬虫

爬虫，是一种按照一定的规则自动地抓取互联网信息的程序。本质是利用程序获取对我们有利的数据。

反爬虫，从不是将爬虫完全杜绝；而是想办法将爬虫的访问量限制在一个可接纳的范围，不要让它过于频繁。

二. 提高爬虫效率的方法

协程。采用协程，让多个爬虫一起工作，可以大幅度提高效率。

多进程。使用CPU的多个核，使用几个核就能提高几倍。

多线程。将任务分成多个，并发（交替）的执行。

分布式爬虫。让多个设备去跑同一个项目，效率也能大幅提升。

打包技术。可以将python文件打包成可执行的exe文件，让其在后台执行即可。

其他。比如，使用网速好的网络等等。

三. 反爬虫的措施

限制请求头，即request header。解决方法：我们可以填写user-agent声明自己的身份，有时还要去填写origin和referer声明请求的来源。

限制登录，即不登录就不能访问。解决方法：我们可以使用cookies和session的知识去模拟登录。

复杂的交互，比如设置“验证码”来阻拦登录。这就比较难做，解决方法1：我们用Selenium去手动输入验证码；方法2：我们用一些图像处理的库自动识别验证码（tesserocr/pytesserart/pillow）。

ip限制。如果这个IP地址，爬取网站频次太高，那么服务器就会暂时封掉来自这个IP地址的请求。解决方法：使用time.sleep()来对爬虫的速度进行限制，建立IP代理池或者使用IPIDEA避免IP被封禁。

如何处理python爬虫ip被封

1、爬虫降低访问速度

由于上文所说的访问速度过快会引起IP被封，那么最直观的办法便是降低访问速度，这样就能避免了我们的IP被封的问题。只是呢，降低速度，爬虫的效率就降低，主要还是要降低到什么程度?

在这一点上吗，我们首先要测试出网站设置的限制速度阈值，如此一来我们才能设置合理的访问速度，建议不要设固定的访问速度，可以设置在一个范围之内，避免过于规律而被系统检测到，从而导致IP被封。

2、爬虫切换IP访问

降低了访问速度，在所难免的影响到了爬取的抓取效率，无法高效的抓取，如此一来的抓取速度与人工抓取有何区别呢?都没有了使用爬虫抓取的优势了。既然单个爬虫被控制了速度，但是我们可以使用多个爬虫同时去抓取啊!是的，我们可以使用多线程，多进程，配合使用代理，不同的线程使用不同的IP地址，就像是同时有不同的用户在访问，如此一来就能大大的提高爬虫的爬取效率了。

爬虫多个访问速度解决方法就能

# 上一篇：go语言怎么输出字符串中的某个中文字符？

# 下一篇：如何用css 画一个酒杯,然后不停的倒酒直到溢出

给您推荐相同类型的内容：

C语言中如何定义全局变量？
1、首先，我们可以在函数外面定义变量，就是全局变量。2、局部变量可以与全局变量同样命名。3、但是优先级是局部变量优先。4、但是局部变量的生命周期是整个结构内。5、全局变量是整个程序结束，才释放。6、我们也可以为变量加上修饰符。在C语言中引
javascript 怎么控制a标签的跳转
JS控制A标记的href跳转可以按照以下方法实现：var a = document.getElementById("aHref") a.href = 'user'取消&lta&g
如何用javascript写个插件
插件的目的是为了实现一系列功能。一般来讲是分为两种，一种是独立插件，一种是依赖插件。独立插件的话，只要把插件写在一个js文件里面，把js引进来就可以了。依赖插件的话，是本身需要依赖于其他的js，比如常见的jq插件，需要依赖jq，使用的时候要
外来人员进小区必须登录物业APP登记？这一要求是否合理？
外来的人员进入到一个小区里面的时候，必须要登录他们的物业APP登记，这样的一个要求相当不合理。其实正常的小区应该都管控的比较严格的，如果你要进入里面的话，肯定是需要登记的，因为只有这样子才能够保证业主的安全，免得放一些闲杂人等进去，但是现在
有没有比较强大的html+js+css编辑器
推荐Hbuider，个人感觉比eclipse和dreamweaver好用。。特点：轻量，只有几M，就算全部插件安装也只有三百M。测试方便：可以直接打包成app运行到安卓或苹果模拟器和真机里。app配置简单，上手速度快。全中文界面。可以新建m
电脑主板冷门知识科普
电脑主板冷门知识有哪些很多用户可能不知道，主板除了热门的知识点之外，还有一些比较冷门的知识点，这些冷门知识点都是不受重视的，下面就让我带你去看看电脑主板冷门知识科普吧，希望能帮助到大家! 怎么看主板几相供电?电脑主板供电相数知识扫
kubernetes 是什么语言开发的
kubernetes是go语言写的，他里面有一些restful api接口，是开源容器应用自动化部署技术，也就是大家经常说的k8s。kubernetes（k8s）是自动化容器操作的开源平台，这些操作包括部署，调度和节点集群间扩展。如果你曾
为什么现在人们用电脑少了
因为很多功能都可以被手机取代，例如一般上网，看电影，聊天，手机专有的游戏，而手机可以随身携带，被笔记本电脑还轻便很多。现在用电脑的主要是办公，还有网游，单机游戏，编程，还有部分必须要电脑才能打开的网站。不过电脑的地位还是现在手机无法取代的以
java 怎样统计系统当前在线人数
用户表里面加一个字段status当用户上线以后，就把status设置为1统计在线人数就是一条sql语句：select count(*) from 用户表 where status = 1锁加单例：public class Regis
求助，golang怎样二进制转十六进制和十六进制转二进制
二进制与十六进制之间的转换1、二进制转十六进制将二进制数以小数点为基点向左右两边每4位长度分节（不足4位的补0），将每节的二进制转为十六进制，再顺序组合起来。2、十六进制转二进制将十六进制的每一位扩展为等价的4位二进制数，再顺序组合起来即可
快手小店怎么开通教程
快手小店的开通方法：操作演示版本；快手app10.8.40.278451、首先打开快手然后点击左上角的【三横】如下图所示：2、然后再点击【快手小店】如下图所示：3、之后再点击【开店】如下图所示：4、然后再找到【我卖自己的商品赚钱】点击后
R语言之常用的统计函数
用的最多的，是求均值的mean()函数，当然这里也要提到，像sum()这种求和函数，还有sd(x) 标准差函数，var(x) 方差函数。min()求最小值，max()求最大值。我们来具体试试，这里使用一个向量：test
css中的绝对定位和相对定位
css中的绝对定位，意思就是把元素的左上角固定到浏览器窗口的某个指定的唯一的坐标点上。 css中的相对定位，意思是是相对于上一个相对定位的，总是相对于前面的同级标签为基准标签。不管是什么定位都需要有一个参照物。相对定位的参照物是本
有什么app是可以上门维修电脑的
上门维修电脑的app很多，百修啊就是其中一员。这种上门维修APP是挺受到欢迎的主要的优势在：维修app在高效整合线下劳动力资源，通过便捷的手机端去设置了维修费服务平台。当用户有维修需求时，可以直接在线预约申请。家电维修APP开发能够解决家电
兄妹四人勾结LV柜姐制假售假，他们是如何进行作案的？
一说到LV人们都知道这是一个奢侈品的老品牌了，但近日，就发生了一起假冒事件，这种制假售假的产业链，他们的这种醒着极其恶劣，等待他们的将是法律的严惩。根据调查发现，这个售假团伙，勾结正品专柜柜员提供内部资料，利用正品非法拆解制版、原材料生产
宁哥有礼什么来头
网红健身教练。宁哥有礼真名为赵宁，这只是他在某一短视频平台上的昵称。他是一位在短视频平台上广受欢迎的健身教练，此前是一名国家健身健美裁判员。赵宁是脂肪供能训练体系创始人、MIT肌肉孤立训练法创始人、曾带出过多名健美明星。他于2022年一月份
电脑ps模拟器金手指的使用教程
相信许多使用ps模拟器的新手玩家一定还不知道怎么使用模拟器的金手指功能吧!下面是我收集的关于电脑ps模拟器金手指的使用教程，希望对你有所帮助。电脑ps模拟器金手指的使用教程首先要有两个工具-文件管理器文档编辑 1.下载安
如何查看电脑显卡
可以打开我的电脑，通过属性进入。然后点击设备管理器。在打开的设备管理器中找到显示适配器。然后打开该显示适配器的属性即可看到显卡信息。具体的查看方法如下：设备：联想小新pad Pro11.5英寸电脑；操作系统：win10专业版。1、找到
怎么样用js做出这个，输入年月日，就知道这是这一年的第几天
var days = [ 0, 一月多少天, 平年的二月多少天, 三月多少天, ..., 十二月多少天 ]var inputs = document.getElementById("输入框ID").value.match
HTML5网页如何调用浏览器APP的微信分享功能
一、html5手机网站调用微信分享包括：获取网络类型。调起客户端的图片播放组件。调用微信扫描二维码。判断是否安装对应的应用。发送邮件。分享到微信朋友圈。二、代码如下：[html] view plain copy&lt!DOCTY
普乐之声Polk Audio Signature Elite ES 20
《论语•为政》有言，“吾十有五而志于学，三十而立，四十而不惑，五十而知天命……”历经50年，本应该心态淡然，谋事在人，成事在天，而普乐之声的50载早已成就满满，仍然不竭余力地研究新技术，开拓新市场，从马里兰州巴尔的摩一间旧式公寓的车库开始起
如何在R语言中使用Logistic回归模型
logit=glm(y~x1+x2,data=data,family=binomial(link='logit'))glm表示广义线性回归，data表示y,x1,x2所在的数据集，family中的link用来选择回归类型
华为悦盒如何与电视机联接
1、华为悦盒支持HDMI接口(下图为例移动定制版的华为悦盒)。2、根据电视支持的接口选择对应的连接方式即可，AV接口盒子重启后会提示网络不通画面，按操作即可。3、确认电视机的支持的接口首选为HDMI接口，其次为AV接口（色差接口）3、确认接
如何使用电脑控制手机
可以电脑控制手机。1、从AirDroid官网或各大应用市场（小米华为360应用宝）下载AirDroid应用2、打开AirDroid个人版应用，并登录您的账号3、登录成功后，根据引导授予AirDroid相关权限（如果您之前已经授予
JAVA判断一个URL是否有效
1、有效的定义是url合法还是url可以访问？2、如果仅仅是地址的书写合法性可以通过正则或者类型转换来校验合法性3、如果是联通性有效，即地址需要能正确访问的话需要构建HTTP（HTTPS等）请求来看response的返回码是不是200、30
除了联想以外，国产电脑比较好用的还有哪些？
有很多人在选择电脑的时候会比较纠结，他们觉得一些国产的电脑比较好，但是又不知道该如何选择。那么国产的电脑，除了联想以外，比较好的还有华硕和神舟这些电脑的品牌都是比较不错的。一、华硕华硕是一个在世界上都比较知名的品牌，这个品牌非常的有价值
布隆过滤器详解
布隆过滤器（英语：Bloom Filter）是 1970 年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。主要用于判断一个元素是否在一个集合中。通常我们会遇到很多要判断一个元素是否在某个集合中的业务场景，一般
什么是JS特效
JS特效就是网页中实现的特殊效果或者特殊的功能的一种技术,是用网页脚本(javascript)来编写制作动态特殊效果。比如图片切换，渐变等等，它为网页活跃了网页的气氛，有时候会起到一定的亲切力。JavaScript 是根据 "
求《Go语言编程》全文免费下载百度网盘资源,谢谢~
《Go语言编程》百度网盘pdf最新全集下载:链接：https:pan.baidu.coms12soZuRrnDGL1HPKxA8ddoQ?pwd=hcru 提取码：hcru简介：这本书从整体的写作风格来说，会以介绍 Go 语言特性
电脑上怎么看春晚直播
在电脑上搜索“央视官方网站”即央视网(cctv.com)：https:chunwan.cctv.com，然后点击进入，在官方网站页面上就直接能找到关于春节联欢晚会的直播平台，然后点击进入，就可以直接观看春晚直播。观看春节联欢晚会的直

推荐阅读

热门文章

最新发布

标签列表

Python爬虫如何避免爬取网站访问过于频繁

给您推荐相同类型的内容：