前期准备工作做好以后我就向google提交网站同时开通网站管理员工具等待收录,一天的时间被google收录, 但只是收录了几个页面,内容页还没有收录。我继续添加文章并且频繁的去google管理员后台查看,第二天的时候突然发现提示:网址受 robots.txt 限制。
当时我就纳闷了,我是严格按照课程中老师讲的做法写的啊,怎么会出问题呢?然后我打开google管理员工具提供的分析 robots.txt 终于找到了问题所在。原来我在robots里设置了Disallow: /marykay 因为我有个目录marykay不想被百度收录 结果google把我网站里http://www.meilinkai.info/marykaynews.html 这样的文章全部屏蔽不收录。我试着把Disallow: /marykay后面加个/后 再测试正常。我又到百度的帮助里查询才搞明白是怎么回事。下面是百度的
Disallow,该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。
robots.txt中少一个,可能就会让你网站中的一些重要页面不被收录, 在此提醒和我一样的新手站长一定要注意。