对于robots.txt,可能一般人的观点是可写可不写,写错了还有麻烦,所以干脆不写。其实,在搜索引擎优化中,robots.txt有这么几个妙用。现在咱们一一来看下robots.txt的妙用。
1、新站创建的时候引导蜘蛛抓取列表页。新站初建,在你的robots.txt写入网站的栏目地址以便抓取。示例如下
# http://www.xxxxx.cn/ 网站优化的robots.txt
User-agent: *
Disallow: /
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
采用了dedecms默认的robots.txt,个人感觉还是挺不错的。
2、屏蔽低质量的页面收录。例如,你的一个网页是动态的页面,content.asp,通过参数id来获得不同的内容,而假如你需要增加一个参数style,以便给不同的用户显示不同样式,但是内容相同的页面,那么,对于id为1的同一个内容的页面,可能会出现好几个连接
content.asp?id=1
content.asp?id=1&style=red
content.asp?id=1&style=green
对于这些连接而言,内容相同,但是连接不同,就可能导致重复内容的出现,在此,你可以通过robots.txt屏蔽重复页面的收录,写法如下
User-agent: *
Disallow: content.asp?id=*&style=*
3、无须向各大搜索引擎提交sitemap。 谷歌,微软以及雅虎均已经支持这一robots.txt的扩展写法。所以也省了提交sitemap的时间