中国IDC圈9月30日报道:近期百度站长俱乐部的Lee发了一篇,关于百度蜘蛛(Baidu spider)抓取失败导致流量流失的原因和影响,感觉很有借鉴意义。下面是原文:

首先说明,spider的抓取失败分为两种:百度自身系统问题、外界站长问题。

这里主要是和各位站长的交流,所以着重说下“外界站长问题”导致的抓取失败,并且影响到站点从百度获得的流量问题。

目前百度spider 系统中能够统计到的失败分为几种:

1, UA/IP封禁

对于百度的ua或者IP进行封禁,会导致百度不能成功抓取您的站点,从而不能成功抓取新网页,以及将之前已经抓到的页面判定为死链,并会进行清理,这样最终导致站点获得的流量减少。此外,还会有一些冒充百度spider的抓取和采集,可以使用DNS反查方式来确定抓取来源的ip是否属于百度,防止误封禁。

参考资料:Baiduspider常见问题解答

2, 压力过大的偶然封禁

首先,我们会根据站点的规模,访问量等信息,建立一个合理的站点抓取压力。但是会有一些例外,在压力控制不好的情况下,服务器会根据自身负荷进行保护性的偶然封禁,对于这样的情况,如果压力过大,请在返回码中尽量不要使用404,建议返回503(其含义是“Service Unavailable”)。这样百度spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了。

3, 站点服务不稳定&更换服务

尽量的保证您的网站稳定,如果需要暂时换服务,需要暂时让旧服务能够使用一段时间,并且做301 跳转,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但我们还是推荐大家这么做。

除了以上介绍的典型封禁,还有一些其他非典型的,比如:refer、ua作弊、js等,这些封禁都会导致百度失败,从而把已经抓到的页面进行删除,或者不能成功抓取新页面,这样会直接影响到网站的流量。

最后,希望站长尽量保持站点的稳定,对于暂时不想被百度抓取的页面,使用正确的返回码告知百度,如果确实不想被百度抓取或者索引,可以写robots信息告知。

此外,我们也会尽最大可能去抓取所有正常站点的内容,并且做好对站点压力的控制。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-05-17 21:01:56
市场情报 艾瑞高德达成战略合作,携手创造流量获取新玩法
大数据时代,把握数据价值,深度洞察行业成为企业不可忽视的战略领域。近日,艾瑞数据与高德开放平台在大数据领域达成战略合作,双方凭借各自扎根行业多年的实力优势,携手 <详情>
2017-03-17 13:13:13
互联网 装睡的运营商终于被叫醒了:因嗅到流量收益的香味
对于流量经营,运营商目前仍没有清晰的基于业务生态需要的商业模式,“流量费”之外,三大运营商需要跨出业务创新性的更大步伐。 <详情>
2017-03-06 09:37:59
国内资讯 长途漫游费收取23年终将取消 运营商或转战流量经营
3月5日,国务院总理李克强在作政府工作报告时提出,今年网络提速降费要迈出更大步伐,年内全部取消手机国内长途和漫游费,大幅降低中小企业互联网专线接入资费,降低国际长 <详情>
2016-12-15 09:26:23
互联网 中国移动遭“薅羊毛” 爱流量一月被“抢”8.2万G
由于活动频率高、转赠变现容易,爱流量成为“羊毛党”的热门项目。淘宝最初扮演交易平台,在淘宝封杀了数万流量交易店铺之后,羊毛党转战QQ群,以“爱流量”为关键词搜索, <详情>
2016-12-05 09:37:44
互联网 免费流量背后的黑色产业链 运营商每年损失上亿
“免费流量”背后实际是一条黑色的产业链。 <详情>