中国IDC圈8月28日报道:搜索引擎通过一种程序robots.txt(又称spider),自动访问互联网上的网页并获取网页信息。robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。robots.txt的存在不但能节约搜索引擎时间成本,而且能提高对我们网站自身爬取的效率,提高我们网站的收录量也有一定帮助的,但是撰写robots.txt有很多需要注意的地方。
1.合理的使用robots.txt文件,可以有效的避免用户从搜索引擎进入网站,不经过登录就能进行各种操作,因为有些网站需求必须登录才能操作,这样也方便管理用户。
2.有时候我们可以使用robots.txt防止搜索引擎抓取动态页面,而只允许它抓取伪静态页面。因为现在很多时候,由于网站的需求我们的网页是伪静态。
3.我们需要将搜索引擎爬虫远离网站的程序文件和后台管理文件,这样可以保证整个网站的正常运行。
4.为了节省服务器的资源,我们可以将一些想保护的文件分类放入特定的文件夹,然后使用Disallow:/语法进行有效的阻止,包括数据库文件、模版文件、CSS样式文件、导航图片和背景图片等等。
5.我们还可以设置允许那个或者那几个搜索引擎蜘蛛访问抓取网站的内容,避免一些垃圾的搜索引擎对网站内容无限制抓取,而导致网站服务器性能降低甚至瘫痪的现象发生。
6.对于一些初学者来说,robots.txt的语法不怎么熟悉,写的不正确或者不规范,可以直接在网站的根目录下上传一个空的文本文档 ,把文档的名称写为小写的robots.txt。
robots.txt不仅在网站优化中起着重要的作用,并且对网站服务器性能的优化也很大的帮助。