蜘蛛如何判断页面是否更新

浏览 发布时间 2011/02/15

我们都知道搜索引擎喜欢新鲜、独特的内容,那么搜索引擎蜘蛛又是如何判断页面是否更新呢?今天将通过以下三个技巧,来为大家分享,有关于蜘蛛如何判断页面是否更新的一些想法:

1、304页面http状态码

在上一篇http状态码是什么及意义,我就和大家谈到了304状态码问题,当第二次请求页面访问的时候,该页面如果未更新,则会反馈一个304代码,而搜索引擎也会利用这个304http状态码来进行判断页面是否更新。

2、Last-Modified文件最后修改时间

这是http头部信息中的一个属性,主要是记录页面最后一次的修改时间,往往我们会发现,一些权重很高的网站,及时页面内容不更新,但是快照却还是能够每日更新,这其中就有Last-Modified的作用。

不过需要注意的是,Last-Modified默认只存在于静态页面,对于动态网页,通常不返回,因此Last-Modified只是蜘蛛判断页面是否更新的一个参考值,而不是条件。

3、比对文件大小

搜索引擎还会取出之前页面文件,和现在的文件进行对比,不过因为大部分网站都是一种替换式更新,往往比对文件大小很难说明问题,因此常见与页面链接变化配合使用。

本文主要是和大家分享了,我个人对于蜘蛛如何判断页面是否更新一些想法,如果有不同意见,请在评论中指出,必回。

文章作者:北京网站优化@红光(QQ:86541358)
文章地址:http://www.010wangzhanyouhua.com/spider-update/
尊重别人的劳动成果,你的劳动成果也一定会被尊重。
文章来源:除注明来自转载,其余全部为原创文章。
旨在和大家分享网站优化经验、普及网站优化知识。
如果你喜欢本站的文章,转载时请保留文章出处,谢谢。 var _bdhmProtocol = (("https:" == document.location.protocol) ? " https://" : " http://"); document.write(unescape("%3Cscript src='" + _bdhmProtocol + "hm.baidu.com/h.js%3F228e1f36afdcb394a9b26b873488ff28' type='text/javascript'%3E%3C/script%3E"));