中国IDC圈5月18日报道:众所周知,robots.txt是网站和蜘蛛之间的一个协议,蜘蛛来到网站之后,会先查看这个文件,以确定自己是否应该对该网站进行爬取。所以robots文件是网站必备的一个文件,相信每个站长的网站根目录下都会有这个文件。但是有相当一部分的站长,对于该文件并没有进行过任何设置,基本上都是初始状态,即:

User-agent: *

Allow:

也就是允许所有搜索引擎蜘蛛爬取网站的所有页面。

一般网站对于robots文件不进行任何设置,并没有太大的影响,但是如果网站想长期可持续发展,并在同类网站中能有不错的排名,那么对robots文件进行一些必要设置是不可或缺的环节,毕竟细节决定成败,相信是所有站长共勉的一句名言。当我们网站和竞争对手在外链、内链、内容等方面不相上下的时候,网站各个细节环节的重视,将是大家一决雌雄的根本点。

要设置好robots文件,首先需要知道该文件的格式

User-agent: 定义搜索引擎的类型

Disallow: 定义禁止搜索引擎收录的地址

Allow: 定义允许搜索引擎收录的地址

实例分析:

淘宝网的Robots.txt文件   

User-agent: Baiduspider   

Disallow: /   

User-agent: baiduspider   

Disallow:/  

很显然淘宝不允许百度的机器人访问其网站下其所有的目录。当然我们一般的网站是不会这么设置的,只有淘宝这样的牛掰才会视百度为玩物……

当然有些站长如果觉得一些引擎的蜘蛛对网站没什么意义,不需要来爬取,也可以设置。比如我觉得有道蜘蛛对我没什么意义,来爬取之后只会增加我服务器的负担,那我就在robots里设置禁止有道蜘蛛爬取:  

User-agent: YoudaoBot   

Disallow: /

我们一般站长需要对robots的设置,只是对网站中某个页面或某个目录进行的,下面举一个简单的例子来说明:

User-agent: *   

Disallow: /cgi-bin/   

Disallow: /tmp/   

Disallow: /~joe/

该网站的robot设置了三个目录禁止搜索引擎访问,这里需要注意的是,每一个目录的设置必须分开声明,不要写成“Disallow: /cgi-bin/ /tmp/”。

当然robots的设置千差万别,各位站长在设置时肯定会根据自己需要进行设定。

下面要说的是,一般网站需要在robots中设置的,禁止蜘蛛爬取的文件:

1:网站的脚本程序,css样式表,这些文件不会增加网站的收录率,还会占用服务器存储空间;

2:网站后台管理文件,后台的管理文件是没必要蜘蛛爬取的;

3:附件、数据库文件、编码文件、模板文件、导航图片、背景图片;

4:如果动态网站创建了静态副本,那么需要robots中设置禁止蜘蛛爬取动态页,避免蜘蛛视这些网页为重复页;

网站的robots设置很重要,注意细节,才能决定成败。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2016-09-18 18:39:03
互联网 SEO高手月入万元多吗
默默无闻的SEOER为啥工资那么高?对于这个问题暂时先卖个关子。在今天的头条问答里面看到类似的问题出现了:为什么互联网行业工资普遍比较高? <详情>
SEO
2013-08-27 09:11:44
互联网 18个网站SEO建议
搜索引擎优化(简称SEO)对于互联网新创企业来说很重要。下面是四位相关专家给出的建议。 <详情>
2013-08-17 09:12:12
互联网 为何网站SEO优化会越来越难?
seo网站优化为什么会越来越难做呢?seo网站优化技术为什么很难再有提升呢?我给你们讲个小故事就知道了。 <详情>
2013-08-07 11:54:10
互联网 SEO内容展现:面向用户与搜索引擎
在目前看来,大多数的中小型网站都呈现着倒逼式的SEO内容现状。面对越来越频繁的算法更新,从原来所谓的“伪原创”过渡到TF/IDF之流的网站内容创作思路,大体说来SEOER普遍 <详情>
2013-08-06 11:56:27
互联网 个人网站seo技巧
SEO是一套系统工程,是从网站建设之初就的开始的,贯穿从建站到运营的方方面面。不管是个人网站,还是门户,搜索引擎都是一个很重要的流量来源,SEO显得尤为重要。 <详情>