百度蜘蛛频繁抓取js和css该怎么办

html-css020

百度蜘蛛频繁抓取js和css该怎么办,第1张

如果你确实不想让百度蜘蛛抓取js和css,可以通过robots.txt进行屏蔽。新建一个robots.txt放在网站根目录,内容为 (如果禁止所有搜索引擎抓取js和css文件,将下面的User-agent: baiduspider改为User-agent: *):

User-agent: baiduspider

Disallow: /*.js$

Disallow: /*.css$

1>被屏蔽掉的js/css文件依然会被baidu和google大量crawl

2>屏蔽后跟踪观察其他page type 蜘蛛crawl量,发现并未增加

3>如果网站大部分js/css文件里包含较多URL可以不屏蔽,蜘蛛爬取js/css文件的同时可以爬取里面的link

4>如果网站大部分js/css文件里基本上都是代码之类的,屏蔽也可,没发现明显的好处也没发现坏处!

三种实用的方法。

1、文章头尾加随机广告..

2、文章列表加随机不同的链接标签,比如<a href="",<a class="dds" href=''

3、正文头尾或列表头尾添加<!--重复特征代码-->

第一种防采集方法:

下面我详细说一下这三种方法的实际应用:

如果全加上,绝对可以有效的防采集,单独加一种就可以让采集者头疼。。

完全可以对付通用的CMS采集程序。。

在采集时,通常都是指定头尾特征从哪到哪过滤.这里我们先讲第一种方法,文章头尾加随机广告..

随机广告是不固定的。

比如你的文章内容是"欢迎访问阿里西西",那么随机广告的加入方法:

<div id="xxx">

随机广告1欢迎访问阿里西西随机广告2

</div>

注:随机广告1和随机广告2每篇文章只要随机显示一个就可以了.

第二种防采集方法:

<!--<div id="xxx_文章ID">-->

其它标题或内容...

<!--<div id="xxx_文章ID">--><div id="xxx_文章ID">

随机广告1欢迎访问阿里西西随机广告2

<--</div>-->

</div>

<--</div>-->

这是第二种防采集方法。在文章正文页面插入重复特征头尾代码的注释。

当然,这个可以用正则去掉,但足于对付通用的采集系统。。

第三种防采集方法:

第三种加在文章的列表,随便链接样式:

<a href="xxx.html">标题一</a>

<a alt="xxx" href="xxx.html">标题二</a>

<a href='xxx.html'>标题三</a>

<a href=xxx.html>标题四</a>

原理是让采集的人无法抓到列表链接规律,无法批量进行采集.

如果三种方法全部加上,我想一定能让想采集的人头疼半天而放弃的..

如果你还问,如何防止别人复制采集呢?要做到这一点容易,把你的网站的网线拔了,自己给自己看就好了.哈哈.

如果你的文章来自原创,那像可以加上版权声明,别人随意转载时,你可以要求对方删除你有版权的文章.