百恒网络
robots文件的作用和设置细节
  • 百恒服务
  • APP开发
  • 网页案例
  • 网页知识
  • 关于我们
  • 联系我们
  • robots文件的作用和设置细节

    2019-11-05 15:41:11 2994
          Robots文件放在网站的根目录下,主要用于通知在seo可以在这个文件中声明该网站中不想被搜索引擎收录的部分,或者指定搜索引擎只收录特定的部分。

      一、robots.txt文件的作用:

      1、屏蔽网站内的死链接。

      2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。

      3、阻止搜索引擎索引网站隐私性的内容。

      网站中重复的内容、页面或者404信息过多,搜索引擎蜘蛛就会认为该网站价值较低,从而降低对该网站的“印象分”,这就是我们经常听到的“降低权重”,因此通过建立robots.txt文件给蜘蛛指路是很有必要的。

      二、经常使用到robots文件的情况

      网站升级

      老版本的很多页面在新版本网站中去掉了,在这种情况下,可以通过 Robots文件告诉蜘蛛不再抓取这些已经去掉的页面。

      网站存在很多重复的内容

      比如一个网站同时存在动态页面和已经经过静态化处理的页面,这些页面在内容上都是完全重复的内容,为了解决重复的问题,可以在Robots文件中禁止蜘蛛抓取动态页面。

      网站内部有些内容不便于公开发布,但是需要允许内部查阅。遇到这种情况,可以在Robots中告诉蜘蛛不要抓取。

      三、robots.txt文件注意事项:

      1、必须放置在一个站点的根目录下;

      2、文件名必须全部小写;

      3、最好是UTF-8编码。

      四、robots.txt写作语法

      允许所有的robot访问 

      User-agent: * 

      Disallow: 

      或者也可以建一个空文件 "/robots.txt" 

      禁止所有搜索引擎访问网站的任何部分 

      User-agent: * 

      Disallow: / 

      禁止所有搜索引擎访问网站的几个部分(下例中的01、02目录) 

      User-agent: * 

      Disallow: /01/ 

      Disallow: /02/ 

      我们来看一个robots.txt范例:百恒网络http://www.nczwz.com/

      访问以上具体地址,我们可以看到robots.txt的具体内容如下:

          User-agent: *

          Disallow: 

           Disallow: /bin/

           Disallow: /adminbase/

           Sitemap: http://www.nczwz.com/sitemap.xml

      禁止某个搜索引擎的访问(下例中的BadBot) 

      User-agent: BadBot 

      Disallow: / 

      只允许某个搜索引擎的访问(下例中的Crawler) 

      User-agent: Crawler 

      Disallow:
     
    展开分享
    服务
    案例
    首页
    动态
    联系
    咨询