robots文件的作用和设置细节

Robots文件放在网站的根目录下，主要用于通知在seo可以在这个文件中声明该网站中不想被搜索引擎收录的部分，或者指定搜索引擎只收录特定的部分。

　　一、robots.txt文件的作用：

　　1、屏蔽网站内的死链接。

　　2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。

　　3、阻止搜索引擎索引网站隐私性的内容。

　　网站中重复的内容、页面或者404信息过多，搜索引擎蜘蛛就会认为该网站价值较低，从而降低对该网站的“印象分”，这就是我们经常听到的“降低权重”，因此通过建立robots.txt文件给蜘蛛指路是很有必要的。

　　二、经常使用到robots文件的情况

　　网站升级

　　老版本的很多页面在新版本网站中去掉了，在这种情况下，可以通过 Robots文件告诉蜘蛛不再抓取这些已经去掉的页面。

　　网站存在很多重复的内容

　　比如一个网站同时存在动态页面和已经经过静态化处理的页面，这些页面在内容上都是完全重复的内容，为了解决重复的问题，可以在Robots文件中禁止蜘蛛抓取动态页面。

　　网站内部有些内容不便于公开发布，但是需要允许内部查阅。遇到这种情况，可以在Robots中告诉蜘蛛不要抓取。

　　三、robots.txt文件注意事项：

　　1、必须放置在一个站点的根目录下；

　　2、文件名必须全部小写；

　　3、最好是UTF-8编码。

　　四、robots.txt写作语法

　　允许所有的robot访问

　　User-agent： *

　　Disallow：

　　或者也可以建一个空文件 "/robots.txt"

　　禁止所有搜索引擎访问网站的任何部分

　　User-agent： *

　　Disallow： /

　　禁止所有搜索引擎访问网站的几个部分（下例中的01、02目录）

　　User-agent： *

　　Disallow： /01/

　　Disallow： /02/

　　我们来看一个robots.txt范例：百恒网络http://www.nczwz.com/

　　访问以上具体地址，我们可以看到robots.txt的具体内容如下：

User-agent: *

Disallow:

Disallow: /bin/

Disallow: /adminbase/

Sitemap: http://www.nczwz.com/sitemap.xml

　　禁止某个搜索引擎的访问（下例中的BadBot）

　　User-agent： BadBot

　　Disallow： /

　　只允许某个搜索引擎的访问（下例中的Crawler）

　　User-agent： Crawler

　　Disallow：