robots.txt写法

浏览 发布时间 2010/07/16

robots.txt是搜索引擎访问网站时第一个抓取文件。它是告诉搜索引擎这个网站上面,哪些文件是可以被收录,哪些不允许被收录的,就好像我们贴在门上的告示一样。

如果你不想让搜索引擎访问自己网站(既拒绝收录)

User-agent: *

Disallow: /

如果你希望搜索引擎访问自己网站(既允许收录)

User-agent: *

Allow: /

或者新建一个空白robots.txt文件

如果你有一个目录想保密,而其他允许被搜索引擎收录(既禁止抓取特定目录)

User-agent: *

Disallow: /特定目录名称/

举例说明:如果禁止抓取特定目录是images话

User-agent: *

Disallow: /images/

如果你不想让搜索引擎抓取自己网站图片(既禁止图片抓取)

User-agent: *

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

如果你的网站有动态和静态两种网页,你只允许抓取静态页面(既禁止动态页面)

User-agent: *

Disallow: /*?*

如果你已经制作一个XML格式网站地图,想让搜索引擎抓取的话(既提交网站地图)

sitemap:网站地图的绝对地址,如:

sitemap:http://www.010wangzhanyouhua.com/sitemaps/sitemaps_1.xml

通过以上几种robots.txt写法,我们对robots.txt有了大概了解,我这里再对robots.txt各个代码解释下。

User-agent: * //规定搜索引擎名称 *为所有搜索引擎

这里为大家扩招下知识

百度蜘蛛名字:baiduspider

谷歌蜘蛛名字:googlebot

搜狗蜘蛛名字:Sogou+web+spider

Disallow:  //禁止搜索引擎抓取目录或网页

禁止抓取目录

Disallow: /images/

禁止抓取网页

Disallow: /test/test.html  //禁止抓取test.html网页

Allow:   //允许搜索引擎抓取目录和网页

一般设成Allow: / 就可以了,但切记不要和Disallow混用,否则有错误。

在研究完robots.txt写法后,我们还得学会创建robots.txt文件,方法很简单,在桌面上新建一个文本,把代码复制进去,然后重命名为“robots.txt”上传到根目录下,如本站的

http://www.010wangzhanyouhua.com/robots.txt

学会robots.txt写法,你将和搜索引擎进行一场有趣对话。

文章作者:北京网站优化@红光(QQ:86541358)
文章地址:http://www.010wangzhanyouhua.com/robots-write/
尊重别人的劳动成果,你的劳动成果也一定会被尊重。
文章来源:除注明来自转载,其余全部为原创文章。
旨在和大家分享网站优化经验、普及网站优化知识。
如果你喜欢本站的文章,转载时请保留文章出处,谢谢。 var _bdhmProtocol = (("https:" == document.location.protocol) ? " https://" : " http://"); document.write(unescape("%3Cscript src='" + _bdhmProtocol + "hm.baidu.com/h.js%3F228e1f36afdcb394a9b26b873488ff28' type='text/javascript'%3E%3C/script%3E"));