中国IDC圈2月8日报道:一个已经建设成功的网站,之后的目标就是希望搜索引擎及时收录,让更多的用户来浏览并对自己网站推广产品产生购买欲望。但这样的愿望不是轻易就能实现的,有时候我们也会碰到网站不需要被搜索引擎收录的情况。

比如,你要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重,这肯定是我们不想看到的结果。

以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。

1、通过服务器(如:Linux/nginx )配置文件设置直接过滤 spider/robots 的IP 段。

小注:第1招和第2招只对“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots),所以网站上线之后要不断跟踪分析日志,筛选出这些 badbot 的ip,然后屏蔽之。

这里有一个badbot ip 数据库:http://www.spam-whackers.com/bad.bots.htm2、通过 meta tag 屏蔽在所有的网站推广网页头部文件添加,添加如下语句:

<meta name=“robots” content=“noindex, nofollow”>

3、通过 robots.txt 文件屏蔽可以说 robots.txt 文件是最重要的一种渠道(能和搜索引擎建立直接对话)。通过分析自己的网站推广博客服务器日志文件,给出以下建议(同时欢迎网友补充):

User-agent: BaiduspiderDisallow: /User-agent: GooglebotDisallow: /User-agent: Googlebot-MobileDisallow: /User-agent: Googlebot-ImageDisallow:/User-agent: Mediapartners-GoogleDisallow: /User-agent: Adsbot-GoogleDisallow: /User-agent:Feedfetcher-GoogleDisallow: /User-agent: Yahoo! SlurpDisallow: /User-agent: Yahoo! Slurp ChinaDisallow: /User-agent: Yahoo!-AdCrawlerDisallow: /User-agent: YoudaoBotDisallow: /User-agent: SosospiderDisallow: /User-agent: Sogou spiderDisallow: /User-agent: Sogou web spiderDisallow: /User-agent: MSNBotDisallow: /User-agent: ia_archiverDisallow: /User-agent: Tomato BotDisallow: /User-agent: *Disallow: /4、补充更新可以通过检测 HTTP_USER_AGENT 是否为爬虫/蜘蛛访问,然后直接返回403 状态码屏蔽之。比如:由于api 权限与微博信息隐私保护原因,Xweibo 2.0 版本后禁止搜索引擎收录。

5、通过搜索引擎提供的站长工具,删除网页快照比如,有的时候百度不严格遵守 robots.txt 协议,可以通过百度提供的“网页投诉”入口删除网页快照。百度网页投诉中心:http://tousu.baidu.com/webmaster/add总结:关于屏蔽搜索引擎收录网页的方法,网站推广编辑就谈这些了,要是哪位朋友有更好的技巧和方法,希望发表出来,大家共同交流学习。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-03-21 09:11:38
互联网 阿里在美国投资的移动搜索引擎Quixey面临倒闭
阿里巴巴曾经在美国等海外市场,面向新创科技公司大举投资,寻找下一个“阿里巴巴”。据外媒最新消息,阿里投资的一家手机APP内部搜索引擎Quixey将倒闭。 <详情>
2016-07-01 09:33:47
国内资讯 互联网时代之当域名遇上搜索引擎
互联网企业的发展,搜索引擎功不可没。一个优质域名为企业带来大量流量是互联网企业想要追求的极致。 <详情>
2016-06-07 15:56:24
大数据资讯 阿里投资大数据电商搜索引擎 仅仅是为了提升你的剁手体验?
过去10年间,基于大数据的人工智能已经在各个领域展露头角,包括在线广告的精准投放、搜索引擎个性化网页排序、电商的个性化商品推荐、社交网络的好友建议、 人脸识别 、 <详情>
2015-11-18 14:49:42
互联网 搜索引擎面临危机 谷歌升级引擎称能理解语句
对于谷歌而言,最重要的业务是YouTube,网页搜索已经排在第二名。 <详情>
2015-01-04 10:17:00
国际资讯 微软和雅虎搜索引擎发生宕机事故
根据Twitter和其他网站监控服务的数据,微软搜索引擎必应和包括Live.com在内的其他网站周五遭遇了约20分钟的短暂宕机。尽管必应等网站已恢复服务,但雅虎搜索服务(基于必 <详情>