中国IDC圈8月28日报道:搜索引擎通过一种程序robots.txt(又称spider),自动访问互联网上的网页并获取网页信息。robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。robots.txt的存在不但能节约搜索引擎时间成本,而且能提高对我们网站自身爬取的效率,提高我们网站的收录量也有一定帮助的,但是撰写robots.txt有很多需要注意的地方。

1.合理的使用robots.txt文件,可以有效的避免用户从搜索引擎进入网站,不经过登录就能进行各种操作,因为有些网站需求必须登录才能操作,这样也方便管理用户。

2.有时候我们可以使用robots.txt防止搜索引擎抓取动态页面,而只允许它抓取伪静态页面。因为现在很多时候,由于网站的需求我们的网页是伪静态。

3.我们需要将搜索引擎爬虫远离网站的程序文件和后台管理文件,这样可以保证整个网站的正常运行。

4.为了节省服务器的资源,我们可以将一些想保护的文件分类放入特定的文件夹,然后使用Disallow:/语法进行有效的阻止,包括数据库文件、模版文件、CSS样式文件、导航图片和背景图片等等。

5.我们还可以设置允许那个或者那几个搜索引擎蜘蛛访问抓取网站的内容,避免一些垃圾的搜索引擎对网站内容无限制抓取,而导致网站服务器性能降低甚至瘫痪的现象发生。

6.对于一些初学者来说,robots.txt的语法不怎么熟悉,写的不正确或者不规范,可以直接在网站的根目录下上传一个空的文本文档 ,把文档的名称写为小写的robots.txt。

robots.txt不仅在网站优化中起着重要的作用,并且对网站服务器性能的优化也很大的帮助。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2012-06-28 11:43:23
互联网 关于二级目录、二级域名的robots.txt设置
以下两点比较细节,一直被孤藤忽视,今天整理下,跟大家一起学习:关于二级目录、二级域名的robots.txt设置。 <详情>
2012-05-18 11:20:44
互联网 分享seo必知的robots.txt文件设置
众所周知,robots.txt是网站和蜘蛛之间的一个协议,蜘蛛来到网站之后,会先查看这个文件,以确定自己是否应该对该网站进行爬取。所以robots文件是网站必备的一个文件,相信 <详情>
2012-05-12 13:32:52
互联网 站内优化“三剑客”
一个网站想要有一个好的排名就必须做好站内、站外的优化,相信大家一定看过很多关于站内或者站外优化的方法、秘笈、诀窍什么 的,有资深的SEO人员写的,有站长们自己的经验 <详情>