如何设置让网站禁止被爬虫收录？

2023-03-31 08:42:02电脑教程034

如何设置让网站禁止被爬虫收录？,第1张

网站建设好了，当然是希望网页被搜索引擎收录的越多越好，但有时候我们也会碰到网站不需要被搜索引擎收录的情况。

比如，要启用一个新的域名做镜像网站，主要用于PPC 的推广，这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话，很有可能会影响官网在搜索引擎的权重。

以下列举了屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路。注意：是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫（蜘蛛）。

1、通过 robots.txt 文件屏蔽

可以说 robots.txt 文件是最重要的一种渠道（能和搜索引擎建立直接对话），给出以下建议：

User-agent: Baiduspider

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: Googlebot-Mobile

Disallow: /

User-agent: Googlebot-Image

Disallow:/

User-agent: Mediapartners-Google

Disallow: /

User-agent: Adsbot-Google

Disallow: /

User-agent:Feedfetcher-Google

Disallow: /

User-agent: Yahoo! Slurp

Disallow: /

User-agent: Yahoo! Slurp China

Disallow: /

User-agent: Yahoo!-AdCrawler

Disallow: /

User-agent: YoudaoBot

Disallow: /

User-agent: Sosospider

Disallow: /

User-agent: Sogou spider

Disallow: /

User-agent: Sogou web spider

Disallow: /

User-agent: MSNBot

Disallow: /

User-agent: ia_archiver

Disallow: /

User-agent: Tomato Bot

Disallow: /

User-agent: *

Disallow: /

2、通过 meta tag 屏蔽

在所有的网页头部文件添加，添加如下语句：

3、通过服务器（如：Linux/nginx ）配置文件设置

直接过滤 spider/robots 的IP 段。

小注：第1招和第2招只对“君子”有效，防止“小人”要用到第3招（“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots），所以网站上线之后要不断跟踪分析日志，筛选出这些 badbot 的ip，然后屏蔽之。

1、useragent模仿谷歌浏览器，获取十几个代理ip，爬的过程中不断轮换ip。

2、通过注册等各种方法，获取一个真实账号，模拟登陆，每次请求携带登录产生的cookie。

3、设置定时器，直接爬取所有能爬取的数据。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：为什么css谷歌有自己的一套样式比如grayscale

# 下一篇：电脑清理软件哪个好用

给您推荐相同类型的内容：

齿轮图标设置怎么下载
齿轮素材设置图标可以在觅知网进行下载。觅知网是上海觅知网络科技有限公司主办的网站，专注于优质实用的设计资源下载。包括广告设计、海报、PNG素材、摄影图、插画背景、PPT模板、视频、音频、简历、Excel表格等。觅知网是国内提供原创版权
鬼泣5对配置的要求如何？
楼主你好！x0dx0a以下是你所说的鬼泣5的配置要求：x0dx0a【最低配置】x0dx0a操作系统：WindowsVistaXP，Windows7，Windows8x0dx0a处理器：AMDAthlonX22.8Ghz或更
react 和 ruby怎么配合
react-ruby-china 项目是一个利用 react, react-dom, react-redux, react-router, redux, es6, redux-thunk 实现的 RubyChina 社区克隆项目.这是一个前
求助，fedora下C语言编译问题
Linux下编译C语言之间gcc就好命令行调用gcc test.c -o test生成test即可执行多文件工程可以使用makefile可以呀，这个我在大学的左后一年做过，利用虚拟机安装fedora，可以实现双系统wendows界面下操作l
电脑任务栏怎么移动?
问题一：电脑任务栏怎么移动到左右边任务栏上点右键，取消“锁定任务栏”前面的勾，然后在任务栏上按住左键即可拖动任务栏到左侧或右侧。问题二：如何移动电脑开始栏位置用鼠标有点叮务栏空白的地方把锁定任务栏上的对号去掉让它前面
如何将exescope. dll文件汉化？
1、第一步，打开一个程序的安装目录，在这里面可以看到一些dll的一些文件2、第二步，右边有一个更多，点击一下“更多”，可以看到它的默认安装路径，如果不需要更改的话，它就会默认的安装到c盘的程序文件夹中。3、第三步，点击安装之后，在它弹出的面
戴尔笔记本电脑怎么开机？
简答方法：1、取下电池和外接电源，按开机键5秒并重复，再接上电池或外接电源再开机。2、单独装电池或者单独使用外接电源再开机。3、如仍无法开机，则需要去售后服务中心进行检测处理。复杂方法:开机没反应的原因有很多，一般以下方法排除解决：1.首先
airpods如何更换蓝牙播放频段
打开手机，点击“设置”。第一步：打开手机，点击“设置”，点击“声音”，找到“媒体”选项，将媒体音量调大，车载导航仪同理。第二步：更换蓝牙播放频段。第三步：在屏幕上找到“多媒体”选项，进入里面选择蓝牙播放音乐。第四步：进入到手机蓝牙设置界面，
如何防止电脑上的重要数据丢失
如今频频发生的企业泄密事件中，员工侵犯知识产权，私自拷贝复制公司的重要数据资料的案例经常发生。受害的往往是一些无纸电子化办公的企业，那么我们应该如何进行设置防止公司的重要数据资料被恶意拷贝呢？目前信息资料泄露的主要途径电子数据资料的外泄
计算机学什么有前途，可以从事什么工作
计算机科学与技术。上可继续深造，深度学习，人工智能，机器学习等等。中可学习数据分析，进行大数据开发。下可当程序开发员，java，python开发软件等等。退可考公务员岗位很多。学计算机可以从事计算机技术人员、计算机教师、网络维护、IT行业、
华硕笔记本怎么装系统
问题一：华硕笔记本电脑光盘怎么装系统前期准备工作！~ 1：首先确定你的光驱有用，此教程是用光驱来安装的。 2：首先要确定你手里有一张光盘，这张光盘是一步一步安装的光盘，并非ghost 版本的。 3：把包装光盘的纸上的序列号抄
电脑清理软件哪个好用
一、CCleaner这款垃圾清理软件不但内存占用小、运行速度快，还可以直接对临时文件夹和回收站进行垃圾清理，并且还能提高电脑运行速度。它还可以对软件进行有效卸载，并且毫无垃圾残留，而且支持系统还原、重复文件查找、磁盘分析等功能。除了英文版
电脑怎么隐藏运行中应用程序？
按如下步骤操作可以隐藏电脑中的一些应用程序：1、右击你要隐藏的程序或文件2、在弹出的菜单中选择“属性”，会弹出一个窗口，左键点击窗口上方的“常规”选项3、左键点击勾选“隐藏”4、左键点击下方的“应用”按钮，再点击“确定”按钮即可隐藏该程序注
主机托架不会掉么
主机托架一般有保护措施，不会掉。电脑主机支架是一种用作电脑平面的小桌子或手推车。与传统的电脑桌相比，电脑支架提供的使用电脑的空间更小。电脑支架有多种材料，如木材、金属或塑料。这些材料经久耐用，它可以与任何一个手持电脑的人搭配。最方便和简单的
电脑键盘上的三个灯分别指示什么脑键盘上的三个灯有什么含义
1、每一个灯代表的含义是数字键盘的打开与关闭，与键盘中的“NumLock”键相关。它的具体作用就是：当此灯常亮时，说明数字键盘的开启的，人们在使用电脑的过程中，如果需要向计算机中输入数字，可以直接通过数字键盘输入即可完成当此灯关闭时，则是说
Python表示矩阵的方法分析
Python表示矩阵的方法分析本文实例讲述了Python表示矩阵的方法。分享给大家供大家参考，具体如下：在c语言中，表示个“整型3行4列”的矩阵，可以这样声明：inta[3][4]在python中一不能声明变量int，二不能列出维数。可
R语言dplyr包中窗口函数应用！
R语言中的dplyr包非常神奇，里面包含很多的函数，今天我们就来介绍下窗口函数的应用。窗口函数应用 mtcars %&gt% group_by(cyl) %&gt% mutate(rank= min_rank(desc(m
电脑怎么快速传文件到手机上
如果您使用的是华为手机，以华为Mate 40手机为例：1、通过 USB 数据线连接手机和电脑。待电脑上的驱动程序自动安装完成后，点击此电脑（计算机），会出现以手机命名的盘符。2、从（手机）状态栏下滑出通知面板（可继续下滑），点击点击查看更多
华为荣耀电脑怎么样啊
荣耀笔记本电脑不错。以轻薄为主的笔记本，一直不受很多年轻人的欢迎。内存采用16GBDDR4双通道，应该是固定在主板上，无法升级。不过16GB的容量足够满足日常工作的需求。MX450单独集成2GB三星GDDR5显存，处理一些主流网游问题不大。
实时监控电脑屏幕的方法有哪些？
实时监控电脑屏幕的方法其实很简单的，只需要一台电脑作为管理端，然后剩下的电脑就能够统一的实时监控屏幕了，是不是感觉挺不可思议的，其实操作就是挺简单的。一般情况下，电脑屏幕监控软件就能够实时的管理电脑了，比如现在企业使用最多的域之盾来进行员工
word里怎么固定字体
在word中固定字体的方法如下（以windowsXp系统的word2007版为例）：1、打开word文档，按下快捷键“CTEL+S”，随后点击工具按钮。2、在接着自动打开的对话框中点击“保存选项”按钮。3、接着勾选“将字体嵌入文件”按钮。
excel排名公式怎么用
打开一个需要用rank函数排名的excel表格，选中要放排名数据的单元格，单击菜单栏“公式”中的“插入函数”，在“插入函数”对话框中找到rank函数。单击Ref后面的按钮，选择要进行排名的单元格。工具／原料：台式电脑Windows 7旗
电脑怎么打勾√
电脑怎么打勾的符号方法如下：1.打开word文件,单击插入或使用快捷键“alt+I"。2.然后紧接着打开插入的下拉菜单后,点击特殊符号。3.在出现的特殊符号对话框里选择数学符号。4.在数学符号下面找到“√”符号,并点击一下。方法一
怎样卡钻？
①开通-②离线-③干扰-④定制-⑤取消-⑥开通-⑦正常-⑧绑定（说明一下，干扰不是干扰10086端口是干扰定制的端口。）下面详细步骤：（以红钻为例。） ①开通，发【QQF】到10665999(等待定制信息）。 ②离线QQ刷钻，或进入刷钻
如何使用css设置文字在网页中显示居中？
1、打开编辑器，新建test.html，用于学习今天的内容。2、接下来需要在head标签下方引入jquery.min.js插件，如下图所示。3、在页面的body标签里，新建一个div，名称为test。4、在body标签下方写上&lt
电脑浏览器的申诉页面在哪
1、在电脑浏览器上打开中央网信办的主页，找到违法和不良信息举报入口并选择进入。2、会来到一个新的界面，点击自己需要申诉的窗口。3、这个时候，就可以输入举报人基本信息了。4、下一步，在确定举报信息以后提交即可实现找网信办申诉的目的了。开始我们
平板电脑什么牌子好？
1.哪个牌子的平板质量好？市面上的平板电脑种类繁多，品牌型号琳琅满目，让人眼花缭乱，无从下手。所以，如果你不知道如何选择平板电脑，那么我们可以参考京东的产品数据。COM的平板电脑畅销榜，并依靠大数据的权威性做出选择和决策。根据JD.COM最
电脑怎么添加无线网络连接
电脑连接WiFi网络可以通过：鼠标右键点击右下角网络图标，打开“网络和Internet”设置。点击WLAN选项卡后，接着选择右侧的显示可用网络。然后选择需要连接的无线网络，点击连接。待输入密码后，即可成功连接。设备：华为笔记本。系统：w
ini 文件是什么意思什么类型？
分类:电脑网络 &gt&gt操作系统系统故障解析:INI 文件的操作----------------------------------------------------------------
手机怎样投屏到电脑上
可参考vivo手机使用无线网络投屏的方式：投屏电脑：需要手机与电脑接入同一网络，电脑端安装并打开互传（下载电脑端互传：pc.vivo.com），进入手机设置--其他网络与连接--投屏--屏幕右上方扫码标识，点击扫描电脑端互传多屏互动二维码

推荐阅读

热门文章

最新发布

标签列表

如何设置让网站禁止被爬虫收录？

给您推荐相同类型的内容：