(1)页面长时间不更新:
如果页面内容长时间不更新,如静态页面,基本上直接返回304个状态码,即使动态页面内容不变,也会出现这个问题。
(2)CDN缓存
当你打开cdn加速时,即使你的内容页面发生了变化,但是cdn的缓存没有更新,也可能导致这个问题。面对这个问题,你可能需要设置cdn定期更新时间,但这与百度快照不更新不同。
网站304的错误状态代码是当客户端试图访问服务器互相的信息提示。如果第二次访问期间页面内容没有更改,服务器将返回304状态代码。
304状态代码与404错误不同。从理论上讲,304状态码出现在网站的任何页面上都不会受到惩罚,但如果你的页面长时间出现304状态码,则会影响搜索引擎的信任度。
http状态码304的意思是:客户端已经执行了GET,但文件变化。
一些常见的状态码为: 200 - 服务器成功返回网页,404 - 请求的网页不存在,503 - 服务器超时。
如果客户端发送了一个带条件的GET 请求且该请求已被允许,而文档的内容(自上次访问以来或者根据请求的条件)并没有改变,则服务器应当返回这个304状态码。简单的表达就是客户端已经执行了GET,但文件未变化。
意义是如果一个网站被搜索引擎抓取的次数以及频率越多那么他是越有利于排名的,但是如果你的网站出现太多的304,那么一定会降低搜索引擎的抓取频率以及次数,从而让自己的网站排名比别人落一步。
304表示:网站这个页面更新力度不够,蜘蛛认为这个页面没更新过。建议:首页多现显示些最新的文章,或者加大下更新力度。拓展介绍:随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。(3)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。(4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(general?purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。