如何设置让网站禁止被爬虫收录？

2023-03-03 19:22:01电脑教程028

如何设置让网站禁止被爬虫收录？,第1张

网站建设好了，当然是希望网页被搜索引擎收录的越多越好，但有时候我们也会碰到网站不需要被搜索引擎收录的情况。

比如，要启用一个新的域名做镜像网站，主要用于PPC 的推广，这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话，很有可能会影响官网在搜索引擎的权重。

以下列举了屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路。注意：是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫（蜘蛛）。

1、通过 robots.txt 文件屏蔽

可以说 robots.txt 文件是最重要的一种渠道（能和搜索引擎建立直接对话），给出以下建议：

User-agent: Baiduspider

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: Googlebot-Mobile

Disallow: /

User-agent: Googlebot-Image

Disallow:/

User-agent: Mediapartners-Google

Disallow: /

User-agent: Adsbot-Google

Disallow: /

User-agent:Feedfetcher-Google

Disallow: /

User-agent: Yahoo! Slurp

Disallow: /

User-agent: Yahoo! Slurp China

Disallow: /

User-agent: Yahoo!-AdCrawler

Disallow: /

User-agent: YoudaoBot

Disallow: /

User-agent: Sosospider

Disallow: /

User-agent: Sogou spider

Disallow: /

User-agent: Sogou web spider

Disallow: /

User-agent: MSNBot

Disallow: /

User-agent: ia_archiver

Disallow: /

User-agent: Tomato Bot

Disallow: /

User-agent: *

Disallow: /

2、通过 meta tag 屏蔽

在所有的网页头部文件添加，添加如下语句：

3、通过服务器（如：Linux/nginx ）配置文件设置

直接过滤 spider/robots 的IP 段。

小注：第1招和第2招只对“君子”有效，防止“小人”要用到第3招（“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots），所以网站上线之后要不断跟踪分析日志，筛选出这些 badbot 的ip，然后屏蔽之。

1、useragent模仿谷歌浏览器，获取十几个代理ip，爬的过程中不断轮换ip。

2、通过注册等各种方法，获取一个真实账号，模拟登陆，每次请求携带登录产生的cookie。

3、设置定时器，直接爬取所有能爬取的数据。

分辨爬虫的善恶。

网络爬虫分为两种，一种是善意爬虫，例如百度、Google等搜索引擎的爬虫，另一种是恶意爬虫，它可能会利用网站漏洞，非法窃取网站数据，或者爬取网站内容，占用服务器资源。恶意爬虫的行为是我们所深恶痛觉的，必须想尽办法予以过滤和阻断。网站或者某一些网页不想被诸如百度、Googl等善意爬虫爬取时，我们也希望能采取一些措施。

如何防止网站被爬虫？

针对善意爬虫，几乎所有的搜索引擎爬虫，都会遵守robots协议，只要我们在网站的根目录下存放一个ASCII编码的文本文件，告诉搜索引擎哪些页面不能爬取，搜索引擎的蜘蛛便会遵照协议，不爬取指定页面的内容。

但是robots并不是一个规范，而是一种君子协议，它只对善意爬虫有效，并不能防止恶意爬虫。

针对恶意爬虫，我们可以采取以下措施来识别和阻断它。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：我想在电脑上重装系统怎么装

# 下一篇：怎么查电脑mac地址？

给您推荐相同类型的内容：

知道一台电脑的IP和端口怎么查用户名.密码和机器号
点击左下角的"开始"菜单,在运行或搜索栏中输入"cmd",点回车键,出现命令行窗口在命令行窗口中输入ipconfig,点击回车键,就可以看到电脑的IP地址注意:如果是插网线上网,需要看的是本地连接的
html5的代码id随机变化怎么定位
首先，id如果随机变化的话肯定就不能依靠id来进行定位了。其次，html元素的定位方式有很多种，依靠标签层级关系，依靠的className，依靠其他属性等等，都是可以的。希望对你有帮助。音乐文件的路径应该都是获取数据库中的信息，每一条信息都
美国人都用什么社交软件？
国外社交软件有，Facebook、WhatsApp、 Skype、line、KakaoTalk1、Facebook MessengerFacebook Messenger，是桌面窗口聊天客户端，允许客户进行聊天、接收通知并从电脑桌面上阅
win11怎么删除dvd驱动器文件
在Windows 11中删除DVD驱动器文件可以使用控制面板的“设备和打印机”功能，在该功能中可以发现和控制已安装的硬件设备，从而可以找到DVD驱动器，然后卸载掉。拓展：此外，如果想要完全清除DVD驱动器文件，可以使用资源管理器来搜索“DV
无线键盘怎么连接电脑
无线键盘连接到电脑通常是通过接收器或者蓝牙进行连接，这里主要讲述Windows10电脑系统的两种不同连接方式。通过接收器连接键盘是比较简单的，可以在电脑端USB接口插入接收器，点击允许接收器使用USB端口。然后打开键盘的开关，要确认键盘
玩游戏用什么笔记本电脑好？
玩游戏用灵越游匣Master 15 7000、三星玄龙骑士、联想拯救者R720、惠普（HP）暗影精灵4代、华硕飞行堡垒五代FX80GM（星途灰）。1、灵越游匣Master 15 7000游匣系列游戏本作为戴尔经典的游戏本品牌，自从推出以
用户账户不小心删除了怎么恢复?
用户账户不小心删除了恢复步骤（以Windows7为例）；1、第一步，打开电脑，按F8进入Windows高级选项菜单，选择【安全模式】进入。请参考下图操作：2、下一步，进入【安全模式】后，鼠标单击【管理员账号】进入，请参考下图操作：3、接下来
企业计算机报废标准
一般计算机设备等固定资产的财务折旧年限都是5年。而报废年限各单位不都一样，大部分都是5年，但也有6年的~服务器、UPS等报废时间比一般的设备稍长，一般是6年。U盘、色带、墨盒等属于易耗品，没有折旧问题。法律分析：电脑报废年限规定:一、固
电脑七八年前买的,现在用会卡需要换些什么可以流畅,一般就办公和打LOL？
按你的配置来看，升级的意义不是很大，严格来说强行升级等于浪费钞票。不过按你的要求来看，只是一般办公和打撸的话，那也好解决。你内存有8g，就不用加了，处理器a6的，马马虎虎，升级也没多大提升，a55的板子，凑合用，其他没啥了，只需要加一块ss
这是什么玉，有收藏价值吗？
从图片上这色泽、油润度、质感来看，个人认为是一块石英岩玉雕件，皮色做得倒是蛮像和田玉的，最好是上鉴定证书来看看。雕工、开脸都还不错，有一定的收藏价值，但市场价格不是太高，喜欢就好。石英岩玉是由粒状石英集合体组成的致密块体，石英含量在90
买电脑怎么看电脑配置好不好？
选购电脑时首先要明确用户需求以及购买笔记本还是台式电脑，还有是购买品牌机还是组装机。然后，要知道电脑的性能，也就是明确电脑配置。选择好的电脑配置，首先要看电脑的CPU。而市场上最常见的CPU就是intel、AMD两大品牌，其中，高端是Int
平板电脑好还是手机好？用来学习（我是学生）我想用来学习的，选手机还是平板，不知什么牌子好？
手机比较方便，推荐一款华为畅享20 Pro，手机参数如下：1、屏幕：屏幕尺寸6.5英寸，屏幕色彩：1670万色，分辨率：20:9FHD+，屏占比91%，一体化弧面机身设计，精彩呼之欲出，让你爱不释手。2、拍照：后置摄像头：4800万像素+8
win10 edge怎么导入旧电脑中的html收藏夹
点击工具栏右边的“中心收藏夹”图标（三横）——在收藏夹选项卡下点击“收藏夹设置”——在里面“导入”。如果想将某个网页添加入收藏夹：点击工具栏右边的“收藏”图标（五角星）——在“收藏”选项卡下点击“保存”。把以下代码放在&lthe
电脑怎么设计一张图片全屏显示
1、打开电脑里面的PS软件，点击进入2、在PS里选择文件打开，从电脑里面导入一张要制作全屏的图片素材3、可以把图片设置成和自己的电脑分辨率一样的图片，（右键点击查看电脑的分辨率如下图）4、选择PS里面菜单栏那里的图像，选择图像里的更改图像大
哪个云电脑平台比较好用？
云电脑平台最好的有：网易云游戏、腾讯START云游戏、达龙云电脑、菜鸡云游戏、布卡云电脑、格来云游戏。云电脑是一种整体服务方案，包括云端资源、传输协议和云终端。用开放式云终端通过传输协议，把桌面、应用、硬件等资源以按需服务、弹性分配的服务
电脑小白买什么电脑好？
看需要用到什么的程序和什么价格而定，是台式还是笔记本，一般i5的cup+华硕的主板+内存8G+500G硬盘+长城450W电源应该就差不多，高端的cup好的可以用i9系列，内存也可以用32G以上，硬盘4T，电源可以用更大功率的，要玩高清游戏或
电脑vpn怎么连接
1、首先在工具栏找到“宽带连接”右键点击“宽带连接”，选择“打开网络和共享中心”，进入“网络和共享中心”之后，点击“设置新的连接或网络”，2、点击“连接到新的工作区”，点击“下一步”，3、选择“使用我的internet连接(VPN)I”，4
台式电脑电源线怎样从主板上拔下来?
1、将台式机主机和显示屏分离，在主机背后找到螺丝，并将其拧下来。2、打开后，在主机内部找到主板上的电源接线口。3、之后用手捏住卡扣，然后慢慢地将其取出。注意不要用太大力气，避免损害主板。4、之后即可成功将主板上地电源线取出。首先，把电源适
能不能在js文件里引用css文件？
可以动态引用！！！补充：例如：&ltscript&gt 添加CSS函数 function add_css() {var str_css = "body {font-size:5px}&quo
各位都说说什么歌好听啊、大神们帮帮忙
以下歌曲都是我听过的精品中的精品，绝对超级好听！华语类1 Angella-蓝雨（这首歌也真够长的，6分多钟，第一次听了就很喜欢。永远的永远太遥远，和曾经许下的誓言）2 T.R.Y-不要在我寂寞的时候说爱我（这首歌貌似有段时间很流
电脑后面book是什么意思
Book是从字面上理解的意思，有两种含义：计算机安装了相应的软件后，能在后台自动运行，但没有安装计算机时，用户要在后台通过设置来进行设置；当计算机安装了软件后，能自动运行，但不能自动运行软件。所以人们常说“book是一台计算机”就是这个意思
笔记本与手提的区别
现在大家说的“手提电脑”就是笔记本电脑的意思，二者没有区别。而10年以前，手提式电脑和笔记电脑是两种不同的东西。手提式电脑外观类似一个皮箱，很厚重，有背带和拎手。而当时的笔记本电脑和现在的笔记本电脑外观没有太大区别。由于当时的手提式电脑是台
怎么学习电脑知识和技能？
学习电脑主要靠自学电脑对初学者，老师引进门很重要，但以后就要靠自学。自学能力对于计算机学习尤为重要，原因就是计算机发展奇快，掌握了自学方法，具备了自学能力，才能应付计算机日新月异的发展形势。学习电脑要勤动手电脑这个学科实践性特强，不动手是学
疫情期间要在家上网课，使用什么设备比较好？
孩子上网课必备设备虽然上网课选择笔记本会更好，但根据家长反馈的实际情况来看，一台笔记本通常无法满足孩子上网课的需求。例如有家长在朋友圈反馈，孩子上网课将家里的手机、电脑、iPad、投影仪全都用上了，电脑用来上课，iPad用来回答问题，手机用
如何在电脑上看光盘?
具体操作如下：1、首先要确保你的电脑具有光驱，现在部分笔记本电脑没有这个功能，一般在笔记本右侧就可以看到，如果笔记本右侧有图中所示光驱按钮则说明电脑具有光驱，反之则没有2、确认电脑具有光驱后，找到光驱启动按钮，按下按钮，光驱支架就会弹出来
怎么才能把电脑搬到另一个房间?
把电脑搬到另一个房间的方法如下关闭计算机，切断电源，拔下网线（或断开路由器）；先用手机拍照，记录各种接口位置和布线情况，把电脑主机和其他部件拆开；把拆下的部件转移到目的房间，并按照手机照片拼接起来；牵引电源线和网线；开机检查各个接口
谷鑫机箱螺丝柱是什么型号的
是M3标准。常见的电脑机箱螺丝规格：六角铜柱螺丝M3*5+6、M3*6+6、M3*7+6、M3*8+6、M3*10+6等多种规格。鑫谷总部基地设立于中国广东省惠州市，研发中心设立在技术前沿的深圳市。企业专注于电脑硬件的机箱、电源产品线及散热
<b:write >还JS中的什么标签
指定文本应以粗体渲染。注释此元素在 Microsoft® Internet Explorer 3.0 的 HTML 中可用，在 Internet Explorer 4.0 的脚本中可用。此元素是内嵌元素。此元素需要关闭标签。示例下面的例子使
电脑复制粘贴是ctrl加什么？
电脑键盘上的“复制和粘贴”,分别是Ctrl+c和Ctrl+v,其中复制的快捷键是Ctrl+c,粘贴的快捷键是Ctrl+v。它的功能是将已经复制（快捷键Ctrl+C）的文本、元素、文件等内容，粘贴到相关的文件程序、或者文件夹里面；从而达到了
css3怎么制作打开的大门动画
1首先，先在&ltbody&gt&ltbody&gt中加入门&ltdiv class="leftDoor"&gt&ltdiv&gt&ltdiv

推荐阅读

热门文章

最新发布

标签列表

如何设置让网站禁止被爬虫收录？

给您推荐相同类型的内容：