搜索引擎蜘蛛工作原理[趣味版]

浏览 发布时间 2010/12/05

之前在写“怎么查看搜索引擎蜘蛛来过没有?”和“如何吸引搜索引擎蜘蛛”时候,我就在想是不是应该写一篇搜索引擎蜘蛛工作原理,后来觉得工作原理这种东西过于枯燥,和自己一直以来的寓教于乐原则不符,就没有动笔,不过今天发现一篇比较有趣的搜索引擎蜘蛛工作原理解释,就特意转载过来,大家有空时候可以看看。

我是搜索引擎蜘蛛,也有人管我就网络爬虫,总之,我是搜索引擎的一个自动程序,我每天的工作就是访问互联网上的“html”网页。我的好奇心很强,但还是很有礼貌的,通常对于第一次遇到的网站,我会先查看他家robots.txt机器人告示,看看这家允许我来不来,如果允许的话,我就会把它们带回来,放到索引数据库里面,所以你能在搜索引擎上找到的网页,全都是我带回来的哟,厉害吧。

因为我是一个自动程序,我是依靠各项设定的规则来行动的,如果你想知道我的行动规则,就继续向下读吧。

我每天都非常勤奋的工作,从来都不知道休息,我最喜欢去的地方就是网站提交服务器,因为大家会把最新的网站网址提交到那里,沿着提交过来的网址,我总能找到很多的“html”网页。但是对于这些新提交过来的网址,我还是非常挑剔的。我最怕的就是沿着网址爬过去了,却发现什么都没有,或者爬过去之后发现发现环境很不稳定,有的道路都是死路口或者错误的路口,对于这种情况,我会毫不犹豫的马上走掉,什么都不带走。当然,我走了以后,还会抽空再过来看看,如果情况长时间没有改变,我就发誓这辈子都不再来了。相反,如果我来的时候,发现环境很好,道路通畅,而且内容丰富,我的心情自然就变的非常的好,不仅会带走很多东西,而且会经常的光顾,这样的情况持续的时间长了,我就会非常信任这样的站点。

说实话,我的工作还是非常辛苦的,需要去的地方实在的太多了,但是别担心,我不会偷懒的。为了提高我的工作效率,我总结了一个经验,这也是长期的工作积累下来的一个经验。我经常光顾一个站点的时候就发现,并不是我每次去都能发现新东西的。而是有固定的时间间隔和一定的规律可循的,我举个例子,当我对一个站点经过一段时间的观察,就会发现这个站点是每天的上午9点钟到下午的6点种,这段时间新内容比较多,而且要拿来这些内容,每隔两个小时去一次就行了,其他是时间去了也是白去。那么针对这个站点,我就会在自己的规则里填写上这样一条规则,以后就按照这样的规则执行,即节省了时间,又提高了效率。

对于一些不能发现规律的站点,我也会自定义规则,其实我每次去的时候都会留下痕迹的,我非常希望站长们能,查看网站日志发现这些痕迹,让我每次去的时候都能有所收获,因为徒劳无功的感觉实在很难过。

实际上,我是非常好相处的。因为我信任谁,就会把谁当成我的朋友,有朋友的感觉实在是好的不得了,平时有很多地方都是朋友朋友介绍我去的,你可以看看我经常光顾的站点上的“友情链接”部分,那就是我的朋友特意为我准备的。对于朋友的介绍,我自然是非常的信任,因为好朋友是不会欺骗我的,但是对于欺骗我的朋友,我也会给他严厉的惩罚。

我是搜索引擎蜘蛛,是网站与搜索引擎交流的自动程序,跟踪我的动向和搜索引擎的反应,然后对你的网站进行有的放矢的优化,这是我给你的建议。

本文是在文章原作者:http://www.seowhy.com/bbs/thread-196725-1-12.html基础上加以修改,转载请保留两个出处,谢谢。

另外需要补充一下,这篇文章开头部分提到的这只搜索引擎蜘蛛,每天工作就是访问互联网上的“html”网页,是因为它是一只网页蜘蛛,另外搜索引擎会有很多类型的蜘蛛,像专门抓图片、PDF等等格式都有。

文章作者:北京网站优化@红光(QQ:86541358)
文章地址:http://www.010wangzhanyouhua.com/working-principle-of-search-engine-spiders/
尊重别人的劳动成果,你的劳动成果也一定会被尊重。
文章来源:除注明来自转载,其余全部为原创文章。
旨在和大家分享网站优化经验、普及网站优化知识。
如果你喜欢本站的文章,转载时请保留文章出处,谢谢。 var _bdhmProtocol = (("https:" == document.location.protocol) ? " https://" : " http://"); document.write(unescape("%3Cscript src='" + _bdhmProtocol + "hm.baidu.com/h.js%3F228e1f36afdcb394a9b26b873488ff28' type='text/javascript'%3E%3C/script%3E"));