中国IDC圈6月9日报道:收录就是搜索引擎抓取一个页面到结果的索引库内,包括一个页面的关键字,标题,以及内容。只有已经被收录的页面才会出现在搜索结果中。

引擎是怎么收录页面的?提交页面吗?

每个搜索引擎都会有相关的爬行器(也叫蜘蛛、网络爬虫等)抓取页面。它能分析页面,页面的内容分析。如果你的是新站,你可以到搜索引擎的登陆页面提交首页即可,因为搜索引擎会顺网站首页的链接抓取你网站所有的页面。不必每个页面都去提交。

每个页面一定收录吗?

不一定,爬虫只会收录它认为对用户有用的东西,一般原创的文章比较受欢迎,新站最好是采用原创战略来吸引爬虫,如不能达到要求也可伪原创(“伪原创”详情可登陆百度百科)。

我的页面内容是原创,为什么引擎不收录或收录了第二天就删除了。

这个问题有很多种可能,最常见的就是别的网站权重比你高,而转载了你的内容而在转载的时候在文章内没有指向你网站的链接,搜索引擎认为权重比较高的网站才是原创。所以就把你的原创删了。还有一种可能就是你的文章确实是你敲键盘敲出来的,但是网络上却有了和你相似度较高的内容,而新站权重较低,你的原创被搜索引擎认为是低质量的内容,所以就出现了这样的问题。还这可能是关系到引擎的个性。如果谷歌的个性是收录比较容易,得到排名却比较难,排名在一万以后。而百度的个性则时收录要求较高,排名都很容易。

如何才能让爬虫更好的收录网页呢?

在收录这些说法中,网站的内容似乎是最重要的,但是内容做好了,那么就要解析一下自己的网站结构时候符合网络爬虫爬行。那就是网站的内链。最基本的内链接建设是:首页能到达任意一个栏目页,每一个栏目页都能到达首页和其他的栏目页(栏目页最好不链接到另一个栏目页的内容),每一个页面都能连接到首页。同种栏目的内容页应当能排列链接(如果这个栏目只有4篇内容的话那么链接应该是这样的A-B-C-D-A)内容页一般不指向其他栏目的内容页(如:A栏目的内容不链接至B栏目的内容,他们互相不链接。)

内容被蜘蛛收录了,我发现这个关键词不合适,能改吗?

最好是不改,要求发现可能会被删除,甚至会被降权,严重的会被K掉,这些很多网站都有典型的案例。

以上都是新手问题,希望大家多多交流。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-03-21 09:11:38
互联网 阿里在美国投资的移动搜索引擎Quixey面临倒闭
阿里巴巴曾经在美国等海外市场,面向新创科技公司大举投资,寻找下一个“阿里巴巴”。据外媒最新消息,阿里投资的一家手机APP内部搜索引擎Quixey将倒闭。 <详情>
2016-07-01 09:33:47
国内资讯 互联网时代之当域名遇上搜索引擎
互联网企业的发展,搜索引擎功不可没。一个优质域名为企业带来大量流量是互联网企业想要追求的极致。 <详情>
2016-06-07 15:56:24
大数据资讯 阿里投资大数据电商搜索引擎 仅仅是为了提升你的剁手体验?
过去10年间,基于大数据的人工智能已经在各个领域展露头角,包括在线广告的精准投放、搜索引擎个性化网页排序、电商的个性化商品推荐、社交网络的好友建议、 人脸识别 、 <详情>
2015-11-18 14:49:42
互联网 搜索引擎面临危机 谷歌升级引擎称能理解语句
对于谷歌而言,最重要的业务是YouTube,网页搜索已经排在第二名。 <详情>
2015-01-04 10:17:00
国际资讯 微软和雅虎搜索引擎发生宕机事故
根据Twitter和其他网站监控服务的数据,微软搜索引擎必应和包括Live.com在内的其他网站周五遭遇了约20分钟的短暂宕机。尽管必应等网站已恢复服务,但雅虎搜索服务(基于必 <详情>