分享seo必知的robots.txt文件设置_互联网资讯

中国IDC圈5月18日报道：众所周知，robots.txt是网站和蜘蛛之间的一个协议，蜘蛛来到网站之后，会先查看这个文件，以确定自己是否应该对该网站进行爬取。所以robots文件是网站必备的一个文件，相信每个站长的网站根目录下都会有这个文件。但是有相当一部分的站长，对于该文件并没有进行过任何设置，基本上都是初始状态，即：

User-agent: *

Allow:

也就是允许所有搜索引擎蜘蛛爬取网站的所有页面。

一般网站对于robots文件不进行任何设置，并没有太大的影响，但是如果网站想长期可持续发展，并在同类网站中能有不错的排名，那么对robots文件进行一些必要设置是不可或缺的环节，毕竟细节决定成败，相信是所有站长共勉的一句名言。当我们网站和竞争对手在外链、内链、内容等方面不相上下的时候，网站各个细节环节的重视，将是大家一决雌雄的根本点。

要设置好robots文件，首先需要知道该文件的格式

User-agent: 定义搜索引擎的类型

Disallow: 定义禁止搜索引擎收录的地址

Allow: 定义允许搜索引擎收录的地址

实例分析：

淘宝网的Robots.txt文件　　

User-agent: Baiduspider 　　

Disallow: / 　　

User-agent: baiduspider 　　

Disallow:/ 　

很显然淘宝不允许百度的机器人访问其网站下其所有的目录。当然我们一般的网站是不会这么设置的，只有淘宝这样的牛掰才会视百度为玩物……

当然有些站长如果觉得一些引擎的蜘蛛对网站没什么意义，不需要来爬取，也可以设置。比如我觉得有道蜘蛛对我没什么意义，来爬取之后只会增加我服务器的负担，那我就在robots里设置禁止有道蜘蛛爬取：