点击这里给我发消息 点击这里给我发消息

总结站长在robots.txt文件中常犯几个的错误

添加时间:2013-12-6
    相关阅读: 网络公司 网络公司 案例 页面 搜索引擎 网络 站长

 Robots文件看起来很简单,只有几行字符,但是作为搜索引擎进入我们站点后第一个访问的对象,其扮演的角色确是至关重要的。这几行字符中蕴含着很多的小细节。如果我们忽视这些小细节的话,robots文件不仅不能成为站点发展的踏脚石,更将可能成为影响站点发展的绊脚石,可以不客气的说一着不慎,经可能满盘皆输。下面笔者将在下文中根据三个案例分析我们写robots时因为不注重细节而引发的不可承受的“痛”。

  问题一:语句的先后顺序颠倒

  我们先来分析一段虽然很简单,但是被广泛应用的语句:

  User-agent: *

  Allow: /

  Disallow: /1234/

  从这三段robots语句中我们不能看出这原本的书写目的是要让搜索引擎不要爬行1234目录下面的页面,而其他的页面则没有限制。而事实上这段语句的执行效果与我们的目的是背道而驰的,为什么呢?分析后你会发现搜索引擎蜘蛛对于robots文件的读取顺序是从上到下的,如果你这么写的话这将会造成屏蔽语句失去原有的效力,修改的方法是将两者乾坤大挪移,将Disallow: /1234/与Allow: /位置对调就能实现我么想要的效果

  问题二:屏蔽站点的某一个页面时,漏掉斜杠“/”

  我们也经常使用robots屏蔽某一个敏感的不想搜索引擎爬行的页面,而在这条语句上我们也有很多细节想要注意,举个例子,假如加入我们想要屏蔽为于根目录下的登陆页面login.asp这一页面,有的站长可能会这么写:Disallow: login.asp,这乍一看没什么问题,但是笔者想要问一下你想要屏蔽的这个页面是位于什么目录的?是根目录或者是一级二级目录的?如果我们忽略前面的斜杠,搜索引擎蜘蛛无法知道该页面在哪里。修改的方法是:Disallow: /login.asp,这样才能真正的屏蔽位于根目录下面的login.asp这一登陆页面。

  问题三:屏蔽站点的整个目录后,漏掉斜杠“/”

  除了屏蔽单个页面,我想大多数站长更常使用的是屏蔽整个目录。同样举个案例,比如我们想屏蔽站点的某一个目录,如/seo/这一目录下面的页面,有的人可能会这样写Disallow: /seo。这样写是否正确呢?这样写不进有错,而且错很大,造成的危害也很大。我们这样虽然可以屏蔽掉/seo/这一目录下面的所有想干页面。但是也会波折到其他不相关的页面,这也将屏蔽开头为/seo的所有页面。其发挥的作用就如同是Disallow: /seo*。修改的方法很简单,即在我们需要屏蔽的目录名称后不要漏了斜杠,如Disallow: /seo/。

  Robots文件可以保护我们的站点的一些文件不被搜索引擎抓取,同时也可以提升搜搜引擎的抓取效率。但是如果我们不注意细节的话,不仅得不到效果,还往往会适得其反。希望本文对于大家在写robots文件时有所帮助。文章由南京网络公司http://www.cootem.com/ 原创,转载请保留我们的地址。

咨询热线:020-85648757 85648755 85648616 0755-27912581 客服:020-85648756 0755-27912581 业务传真:020-32579052
广州市网景网络科技有限公司 Copyright◎2003-2008 Veelink.com. All Rights Reserved.
广州商务地址:广东省广州市黄埔大道中203号(海景园区)海景花园C栋501室
= 深圳商务地址:深圳市宝源路华丰宝源大厦606
研发中心:广东广州市天河软件园海景园区 粤ICP备05103322号 工商注册